Kualitas Informasi
Machine Translated by Google
Machine Translated by Google
Kualitas Informasi
Potensi Data dan Analisis untuk
Menghasilkan Pengetahuan
Ron S. Kenett
KPA, Israel dan Universitas Turin, Italia
Galit Shmueli
Universitas Nasional Tsing Hua, Taiwan
Machine Translated by Google
Kantor terdaftar
John Wiley & Sons, Ltd, The Atrium, Gerbang Selatan, Chichester, Sussex Barat, PO19 8SQ, Inggris Raya
Untuk rincian tentang kantor editorial global kami, untuk layanan pelanggan dan untuk informasi tentang cara mengajukan
permohonan izin untuk menggunakan kembali materi hak cipta dalam buku ini, silakan lihat situs web kami di www.wiley.com.
Hak penulis untuk diidentifikasi sebagai penulis karya ini telah ditegaskan sesuai dengan Undang-Undang Hak Cipta, Desain,
dan Paten tahun 1988.
Seluruh hak cipta. Tidak ada bagian dari publikasi ini yang boleh direproduksi, disimpan dalam sistem pengambilan, atau
ditransmisikan, dalam bentuk apa pun atau dengan cara apa pun, elektronik, mekanis, fotokopi, rekaman, atau lainnya, kecuali
sebagaimana diizinkan oleh Undang-Undang Hak Cipta, Desain, dan Paten Inggris tahun 1988, tanpa izin sebelumnya dari penerbit.
Wiley juga menerbitkan bukunya dalam berbagai format elektronik. Beberapa konten yang muncul di media cetak mungkin tidak
tersedia di buku elektronik.
Sebutan yang digunakan oleh perusahaan untuk membedakan produknya sering kali diklaim sebagai merek dagang. Semua nama
merek dan nama produk yang digunakan dalam buku ini adalah nama dagang, merek layanan, merek dagang atau merek dagang
terdaftar dari pemiliknya masing-masing. Penerbit tidak terkait dengan produk atau vendor apa pun yang disebutkan dalam buku ini.
Batas Tanggung Jawab/Penafian Garansi: Meskipun penerbit dan penulis telah melakukan upaya terbaik mereka dalam
mempersiapkan buku ini, mereka tidak membuat pernyataan atau jaminan sehubungan dengan keakuratan atau kelengkapan isi buku
ini dan secara khusus menyangkal jaminan tersirat atas kelayakan untuk diperdagangkan. atau kesesuaian untuk tujuan tertentu.
Buku ini dijual dengan pemahaman bahwa penerbit tidak terlibat dalam memberikan layanan profesional dan baik penerbit maupun
penulis tidak bertanggung jawab atas kerugian yang timbul karenanya. Jika nasihat profesional atau bantuan ahli lainnya diperlukan,
jasa profesional yang kompeten harus dicari.
10 9 8 7 6 5 4 3 2 1
Machine Translated by Google
Untuk Sima; anak-anak kami Dolav, Ariel, Dror, dan Yoed; dan keluarga mereka dan terutama
anak-anak mereka, Yonatan, Alma, Tomer, Yadin, Aviv, Gili, Matan, dan Eden, merekalah yang
menjadi kebanggaan dan motivasi saya.
Dan untuk mengenang sahabat saya, Roberto Corradetti, yang mendedikasikan karirnya pada
statistik terapan.
RSK
Kepada keluarga saya, mentor, kolega, dan siswa yang telah mencetuskan dan memupuk
penciptaan pengetahuan baru dan pemikiran inovatif
GS
Machine Translated by Google
Machine Translated by Google
Isi
Kata pengantar ix
Tentang Penulis xi
8 Kesehatan 134
viii Isi
Indeks 351
Machine Translated by Google
Kata pengantar
Saya sering diundang untuk menilai proposal penelitian. Pertanyaan-pertanyaan yang harus saya ajukan pada
diri saya sendiri dalam penilaian ini antara lain: Apakah tujuan-tujuan tersebut dinyatakan dengan cukup jelas?
Apakah penelitian tersebut mempunyai peluang yang baik untuk mencapai tujuan yang telah ditetapkan?
Akankah para peneliti dapat memperoleh data berkualitas yang memadai untuk proyek tersebut? Apakah
metode analisisnya memadai untuk menjawab pertanyaan? Dan seterusnya. Pertanyaan-pertanyaan ini sangat
mendasar, tidak hanya untuk proposal penelitian, namun juga untuk studi empiris – untuk studi apa pun yang
bertujuan untuk mengekstraksi informasi berguna dari bukti atau data. Namun hal ini jarang diungkapkan
secara terbuka. Mereka cenderung bersembunyi di belakang, dengan kemampuan muncul ke depan untuk
menyerang orang-orang yang gagal memikirkannya.
Pertanyaan-pertanyaan ini persis seperti pertanyaan-pertanyaan yang ditangani oleh kerangka InfoQ –
Kualitas Informasi –. Menjawab pertanyaan-pertanyaan tersebut memungkinkan badan-badan pemberi dana,
perusahaan, lembaga statistik nasional, dan organisasi-organisasi lain untuk menentukan peringkat proposal,
menyeimbangkan biaya dengan kemungkinan keberhasilan, dan juga untuk mengidentifikasi kelemahan-
kelemahan sehingga meningkatkan proposal dan peluang mereka dalam menghasilkan informasi yang berguna
dan berharga. Dalam konteks meningkatnya keterbatasan sumber daya keuangan, dana harus dibelanjakan
dengan baik, sehingga memaksimalkan peluang penelitian untuk mendapatkan informasi yang berguna
menjadi semakin penting. Kerangka kerja InfoQ menyediakan struktur untuk memaksimalkan peluang ini.
Sekilas melihat rak statistik di perpustakaan teknis mana pun akan mengungkapkan bahwa sebagian
besar buku berfokus secara sempit pada rincian metode analisis data. Hal yang sama berlaku untuk hampir
semua pengajaran statistika. Semuanya baik-baik saja – tentu saja penting untuk mencakup materi tersebut.
Lagi pula, tanpa pemahaman tentang alat-alat dasar, analisis dan ekstraksi pengetahuan tidak akan mungkin
dilakukan. Namun fokus yang sempit seperti ini biasanya tidak mampu menempatkan penelitian tersebut dalam
konteks yang lebih luas, sehingga jika tidak dilakukan maka peluang keberhasilannya akan berkurang. Buku
ini akan membantu memperbaiki pengawasan tersebut. Hal ini akan memberikan pembaca wawasan dan
pemahaman tentang bagian penting lain dari analisis empiris, bagian yang sangat penting jika penelitian ingin
menghasilkan kesimpulan yang valid, akurat, dan berguna.
Namun buku ini lebih dari sekadar memberikan kerangka kerja. Hal ini juga menggali rincian aspek-aspek
analisis data yang diabaikan ini. Bab ini membahas fakta bahwa data yang sama mungkin berkualitas tinggi
untuk satu tujuan dan rendah untuk tujuan lain, dan bahwa kecukupan suatu analisis bergantung pada data
dan tujuannya, serta bergantung pada aspek lain yang kurang jelas, seperti aksesibilitas, kelengkapan, dan
kerahasiaan data. Dan itu mengilustrasikan ide-ide dengan serangkaian aplikasi yang mencerahkan.
Dengan semakin banyaknya komputer yang memikul beban mekanis dalam analisis data, peluang
semakin besar bagi kita untuk mengalihkan perhatian kita ke tingkat yang lebih tinggi
Machine Translated by Google
x Kata Pengantar
aspek analisis: perumusan pertanyaan yang tepat, pertimbangan kualitas data untuk menjawab pertanyaan-pertanyaan
tersebut, pemilihan metode terbaik untuk mencapai tujuan, dengan mempertimbangkan keseluruhan konteks analisis.
Dengan melakukan hal ini, kami meningkatkan kualitas kesimpulan yang kami peroleh. Dan hal ini, pada gilirannya, akan
menghasilkan keputusan yang lebih baik – bagi para peneliti, pembuat kebijakan, manajer, dan pihak lainnya. Buku ini akan
memberikan alat penting dalam proses ini.
David J. Tangan
Tentang Penulis
Ron S. Kenett adalah ketua Grup KPA; profesor riset, Universitas Turin, Italia; profesor
tamu di Institut Penelitian Obat Universitas Ibrani, Yerusalem, Israel dan di Fakultas
Ekonomi, Universitas Ljubljana, Slovenia.
Dia adalah mantan presiden Asosiasi Statistik Israel (ISA) dan Jaringan Statistik Bisnis
dan Industri Eropa (ENBIS). Ron menulis dan memimpin lebih dari 200 makalah dan
12 buku dengan berbagai topik mulai dari statistik industri, survei pelanggan,
pengendalian kualitas multivariat, manajemen risiko, biostatistik dan metode statistik
dalam perawatan kesehatan hingga sistem penilaian kinerja dan model manajemen
terintegrasi. Grup KPA yang ia bentuk pada tahun 1990 adalah perusahaan Israel
terkemuka yang berfokus pada menghasilkan wawasan melalui analisis dengan
pelanggan internasional seperti hp, 3M, Teva, Perrigo, Roche, Intel, Amdocs, Stratasys,
Israel Aircraft Industries, Israel Electricity Corporation, ICL, start-up, bank, dan
penyedia layanan kesehatan. Ia dianugerahi Medali Greenfield 2013 oleh Royal
Statistical Society sebagai pengakuan atas keunggulan dalam kontribusinya terhadap
penerapan statistik. Di antara banyak aktivitasnya, dia adalah anggota Dewan
Penasihat Publik Nasional untuk Statistik Israel; anggota Dewan Akademik Eksekutif,
Wingate Academic College; dan anggota dewan di beberapa perusahaan farmasi dan produk Int
Kata pengantar
Buku ini membahas tentang pendekatan strategis dan taktis dalam analisis data dimana memberikan
nilai tambah dengan mengubah angka menjadi wawasan adalah tujuan utama dari studi empiris.
Dalam pengalaman lama kami sebagai ahli statistik terapan dan peneliti penambangan data (“ilmuwan
data”), kami berfokus pada pengembangan metode analisis data dan menerapkannya pada masalah
nyata. Namun, berdasarkan pengalaman kami, analisis data adalah bagian dari proses yang lebih
besar yang dimulai dengan perolehan masalah yang terdiri dari pendefinisian masalah yang tidak
terstruktur dan diakhiri dengan keputusan mengenai item tindakan dan intervensi yang mencerminkan
dampak sebenarnya dari sebuah penelitian.
Pada tahun 2006, penulis pertama menerbitkan makalah tentang bias pendidikan statistik di
mana, biasanya, dalam kursus statistik dan analisis data, hanya metode statistik yang diajarkan, tanpa
mengacu pada proses analisis statistik (Kennett dan Thyregod, 2006).
Pada tahun 2010, penulis kedua menerbitkan makalah yang menunjukkan perbedaan antara
pemodelan statistik yang ditujukan untuk tujuan prediksi versus pemodelan yang dirancang untuk
menjelaskan efek sebab akibat (Shmueli, 2010), implikasinya adalah bahwa tujuan suatu penelitian
harus mempengaruhi cara penelitian dilakukan. mulai dari pengumpulan data hingga pra-pemrosesan
data, eksplorasi, pemodelan, validasi, dan penerapan. Makalah terkait (Shmueli dan Koppius, 2011)
berfokus pada peran analisis prediktif dalam pembangunan teori dan pengembangan ilmiah dalam
bidang penelitian ilmu sosial dan manajemen yang didominasi penjelasan.
Pada tahun 2014, kami menerbitkan “Tentang Kualitas Informasi” (Knett dan Shmueli, 2014),
sebuah makalah yang dirancang untuk meletakkan dasar bagi pendekatan holistik terhadap analisis
data (menggunakan pemodelan statistik, pendekatan penambangan data, atau metode analisis data
lainnya) dengan menyusun bahan utama yang mengubah angka menjadi informasi.
Kami menyebut pendekatan kualitas informasi (InfoQ) dan mengidentifikasi empat komponen InfoQ
dan delapan dimensi InfoQ.
Tesis utama kami adalah bahwa analisis data, dan khususnya bidang statistik dan ilmu data, perlu
beradaptasi dengan tantangan dan teknologi modern dengan mengembangkan metode terstruktur
yang memberikan pandangan siklus hidup yang luas, mulai dari angka hingga wawasan. Pandangan
siklus hidup ini perlu difokuskan untuk menghasilkan InfoQ sebagai tujuan utama (untuk informasi
lebih lanjut lihat Kenett, 2015).
Buku ini, Kualitas Informasi: Potensi Data dan Analisis untuk Menghasilkan Pengetahuan,
menawarkan pembahasan ekstensif tentang InfoQ dan kerangka InfoQ. Hal ini bertujuan untuk
memotivasi para peneliti untuk mengembangkan lebih lanjut elemen InfoQ dan siswa dalam program
yang mengajarkan mereka bagaimana memastikan pekerjaan analitik atau statistik mereka
menghasilkan informasi berkualitas tinggi.
Machine Translated by Google
Mengatasi komunitas campuran ini merupakan sebuah tantangan. Di satu sisi, kami ingin memberikan
pertimbangan akademis, dan di sisi lain, kami ingin menyajikan contoh dan kasus yang memotivasi
mahasiswa dan praktisi serta memberi mereka panduan dalam proyek spesifik mereka.
Kami mencoba mencapai gabungan tujuan ini dengan menggabungkan Bagian I, yang sebagian besar merupakan tujuan utama
metodologis, dengan Bagian II yang didasarkan pada contoh dan studi kasus.
Di Bagian III, kami membahas topik tambahan yang relevan dengan InfoQ seperti penelitian yang
dapat direproduksi, tinjauan publikasi penelitian ilmiah dan terapan, penggabungan InfoQ dalam program
pengembangan akademik dan profesional, dan bagaimana tiga platform perangkat lunak terkemuka, R,
MINITAB, dan JMP mendukung Implementasi InfoQ.
Para peneliti yang tertarik dengan metode dan strategi statistik terapan kemungkinan besar akan
memulai di Bagian I dan kemudian melanjutkan ke Bagian II untuk melihat ilustrasi kerangka InfoQ yang
diterapkan di berbagai domain. Praktisi dan siswa yang mempelajari cara mengubah angka menjadi
informasi dapat memulai dari bab yang relevan di Bagian II dan kembali ke Bagian I.
Seorang pengajar atau perancang kursus analisis data, statistik terapan, atau ilmu data dapat
memanfaatkan contoh di Bagian II dan mengkonsolidasikan pendekatan dengan mencakup Bab 13 dan
bab-bab di Bagian I. Bab 13 tentang “Mengintegrasikan InfoQ ke dalam ilmu data program analitik, kursus
metode penelitian, dan banyak lagi” disiapkan secara khusus untuk audiens ini. Kami juga mengembangkan
lima studi kasus yang dapat digunakan oleh guru sebagai latihan penilaian InfoQ berbasis rating (tersedia
di http://infoq.
galitshmueli.com/class-assignment).
Dalam pengembangan InfoQ, kami mendapat banyak masukan dari banyak pihak. Secara khusus,
kami ingin mengucapkan terima kasih atas komentar mendalam dari Sir David Cox, Shelley Zacks, Benny
Kedem, Shirley Coleman, David Banks, Bill Woodall, Ron Snee, Peter Bruce, Shawndra Hill, Christine
Anderson Cook, Ray Chambers, Fritz Sheuren, Ernest Mandor, Philip Stark, dan David Steinberg. Motivasi
untuk menerapkan InfoQ pada review makalah (Bab 12) berasal dari komentar Ross Sparks yang menulis
kepada kami: “Saya sangat menyukai kerangka kerja Anda untuk mengevaluasi kualitas informasi dan
saya sudah mulai menggunakannya untuk menilai makalah yang saya minta. untuk meninjau. Khususnya
makalah yang diterapkan.” Dalam mempersiapkan materi ini, kami memanfaatkan masukan editorial
komprehensif dari Raquelle Azran dan Noa Shmueli yang dengan murah hati memberi kami keahlian
mereka yang sangat berharga—kami ingin mengucapkan terima kasih dan penghargaan atas bantuan
mereka dalam meningkatkan bahasa dan gaya teks.
Tiga bab terakhir disumbangkan oleh rekan-rekan. Mereka menciptakan jembatan antara teori dan
praktik yang menunjukkan bagaimana InfoQ didukung oleh R, MINITAB, dan JMP. Kami berterima kasih
kepada penulis bab-bab ini, Silvia Salini, Federica Cugnata, Elena Siletti, Ian Cox, Pere Grima, Lluis Marcoÿ
Almagro, dan Xavier TortÿMartorell, atas upaya mereka, yang membantu menjadikan karya ini baik secara
teoritis maupun praktis.
Kami secara khusus berterima kasih kepada Profesor David J. Hand yang telah mempersiapkan kata
pengantar buku ini. David telah menjadi sumber inspirasi bagi kami selama bertahun-tahun dan
kontribusinya menyoroti bagian-bagian penting dari pekerjaan kami.
Selama penulisan buku ini dan pengembangan kerangka InfoQ, penulis pertama mendapat manfaat
dari berbagai diskusi dengan rekan-rekan di Universitas Turin, khususnya dengan visi besar tentang peran
statistik terapan di zaman modern.
Machine Translated by Google
bisnis dan industri, mendiang Profesor Roberto Corradetti. Roberto adalah teman dekatnya
dan sangat mempengaruhi pekerjaan ini dengan terus menekankan perlunya pekerjaan
statistik agar diapresiasi oleh pelanggannya dalam bisnis dan industri. Selain itu, dukungan
finansial dari Diego de Castro Foundation yang ia kelola telah menyediakan waktu untuk
bekerja dalam lingkungan akademik yang merangsang baik di Fakultas Ekonomi dan
Departemen Matematika “Giuseppe Peano” UNITO, Universitas Turin. Kontribusi Roberto
Corradetti tidak dapat dianggap remeh dan harus diakui dengan rendah hati. Roberto
meninggal dunia pada bulan Juni 2015 dan meninggalkan kekosongan besar. Penulis kedua
mengucapkan terima kasih kepada peserta Simposium Penelitian Tantangan Statistik dalam
eCommerce 2015, di mana ia menyampaikan pidato utama tentang InfoQ, atas masukan
dan antusiasme mereka mengenai pentingnya kerangka InfoQ untuk penelitian ilmu sosial
dan manajemen saat ini.
Akhirnya kami dengan senang hati mengucapkan terima kasih atas bantuan profesional
dari personel Wiley termasuk Heather Kay, Alison Oliver dan Adalfin Jayasingh dan
berterima kasih atas dorongan, komentar, dan masukan mereka yang berperan penting
dalam penyempurnaan bentuk dan isi buku ini.
Referensi
Kenett, RS (2015) Statistik: pandangan siklus hidup (dengan diskusi). Rekayasa Kualitas, 27(1),
hal.111–129.
Kenett, RS dan Shmueli, G. (2014) Tentang kualitas informasi (dengan diskusi). Jurnal
Royal Statistical Society, Seri A, 177(1), hlm.3–38.
Kenett, RS dan Thyregod, P. (2006) Aspek konsultasi statistik tidak diajarkan oleh akademisi.
Statistika Neerlandica, 60(3), hlm.396–412.
Shmueli, G. (2010) Untuk menjelaskan atau memprediksi? Ilmu Statistik, 25, hlm.289–310.
Shmueli, G. dan Koppius, OR (2011) Analisis prediktif dalam penelitian sistem informasi.
MIS Triwulanan, 35(3), hlm.553–572.
Machine Translated by Google
Sekilas melihat rak statistik di perpustakaan teknis mana pun akan mengungkapkan bahwa sebagian
besar buku berfokus secara sempit pada rincian metode analisis data. Hal yang sama berlaku untuk
hampir semua pengajaran statistika. Buku ini akan membantu memperbaiki pengawasan tersebut. Hal
ini akan memberikan pembaca wawasan dan pemahaman tentang bagian penting lain dari analisis
empiris, bagian yang sangat penting jika penelitian ingin menghasilkan kesimpulan yang valid, akurat, dan berguna.
Tangan David
Imperial College, London, Inggris
Ada perbedaan penting antara data dan informasi. Data hanya menjadi informasi ketika berfungsi untuk
memberikan informasi, namun apa potensi data untuk memberikan informasi? Dengan upaya yang telah
dilakukan Kenett dan Shmueli, kini kita memiliki kerangka umum untuk menjawab pertanyaan tersebut.
Kerangka kerja ini relevan dengan keseluruhan proses analisis, yang menunjukkan potensi untuk
mencapai informasi berkualitas lebih tinggi di setiap langkah.
John Sal
Institut SAS, Cary, NC, AS
Para penulis memiliki kualitas yang langka: mampu menyajikan pemikiran yang mendalam dan pendekatan
yang masuk akal sedemikian rupa sehingga para praktisi dapat merasa nyaman dan memahami ketika
membaca karya mereka dan, pada saat yang sama, peneliti terdorong untuk memikirkan bagaimana mereka
melakukan pekerjaan mereka.
Fabrizio Ruggeri
Consiglio Nazionale delle Ricerche
Istituto di Matematica Applicata e Tecnologie Informatiche, Milan, Italia
Teknik sebanyak apa pun tidak dapat membuat data yang tidak relevan sesuai dengan tujuan,
menghilangkan bias yang tidak diketahui, atau mengimbangi kekurangan data. Kesimpulan yang berguna
dan dapat diandalkan memerlukan keseimbangan pertimbangan dunia nyata dan teoritis serta menyadari
bahwa tujuan, data, analisis, dan biaya harus saling berhubungan. Seringkali, buku-buku tentang statistik
dan analisis data menempatkan formula sebagai pusat perhatian dan mengabaikan pertanyaan-
pertanyaan yang lebih penting mengenai relevansi dan keterbatasan data serta tujuan analisis. Buku ini mengangkat
Machine Translated by Google
menempatkan isu-isu penting ini pada tempatnya dan memberikan struktur (dan contoh) yang sistematis
untuk membantu praktisi melihat konteks pertanyaan statistik yang lebih luas dan, dengan demikian,
melakukan pekerjaan yang lebih berharga.
Phillip Stark
Universitas California, Berkeley, AS
…masalah “Q” menjadi hal yang utama bagi siapa saja (atau lembaga mana pun) yang berharap mendapatkan manfaat
dari data tsunami yang dikatakan sebagai penyebab utama permasalahan ini… Jadi buku ini akan sangat tepat
waktu.
Kamar Ray
Universitas Wollongong, Australia
Kenett dan Shmueli menjelaskan kontributor terbesar terhadap kesimpulan yang salah dalam penelitian,
yaitu buruknya kualitas informasi yang dihasilkan dari sebuah penelitian. Masalah ini – yang diperparah
dengan munculnya Big Data – hanya mendapat sedikit perhatian dalam literatur dan ruang kelas.
Permasalahan kualitas informasi dapat sepenuhnya melemahkan kegunaan dan kredibilitas suatu
penelitian, namun para peneliti biasanya menanganinya secara ad-hoc, begitu saja, dan sering kali
sudah terlambat. Kualitas Informasi menawarkan kerangka kerja yang masuk akal untuk memastikan
bahwa data yang dimasukkan ke dalam penelitian dapat menjawab pertanyaan yang diajukan secara
efektif.
Peter Bruce
Lembaga Pendidikan Statistika
Para pembuat kebijakan mengandalkan data berkualitas tinggi dan relevan untuk mengambil keputusan
dan penting bahwa, seiring dengan semakin banyaknya jenis data yang tersedia, kita memperhatikan
semua aspek kualitas informasi yang diberikan. Hal ini tidak hanya mencakup kualitas statistik, namun
dimensi lain yang diuraikan dalam buku ini termasuk, yang sangat penting, apakah data dan analisis
menjawab pertanyaan yang relevan.
John Pullinger
Ahli Statistik Nasional, Otoritas Statistik Inggris, London, Inggris
Buku yang mengesankan ini mengisi kesenjangan dalam pengajaran metodologi statistik. Ini berkaitan
dengan topik yang diabaikan dalam buku teks statistik: kualitas informasi yang disediakan oleh produsen
proyek statistik dan digunakan oleh pelanggan data statistik dari survei, data administratif, dll. Penekanan
dalam buku ini adalah pada: mendefinisikan, mendiskusikan, menganalisis tujuan proyek pada tahap
awal dan yang tidak kalah pentingnya pada tahap analisis dan penggunaan hasil yang diperoleh adalah
hal yang sangat penting.
Moshe Sikron
Mantan Ahli Statistik Pemerintah Israel, Yerusalem, Israel
Ron Kenett dan Galit Shmueli termasuk dalam kelompok praktisi yang melampaui kecakapan
metodologis dalam mempertanyakan tujuan apa yang harus dicapai oleh analisis berbasis data, dan apa
yang dapat dilakukan untuk mengukur kesesuaian analisis untuk memenuhi kebutuhannya.
Machine Translated by Google
tujuan. Pemahaman seperti ini semakin mendesak mengingat iklim kontroversi yang ada saat ini
seputar mekanisme kendali mutu ilmu pengetahuan itu sendiri. Faktanya, ilmu pengetahuan yang
digunakan untuk mendukung pengambilan keputusan ekonomi atau kebijakan – baik itu ilmu
pengetahuan alam atau ilmu sosial – memiliki kelemahan yang jelas, tepatnya pada pemodelan
statistik dan matematis, dimana pendekatan yang mereka anjurkan – Kualitas Informasi atau InfoQ – lebih dibutu
Satu bab penuh secara khusus dikhususkan untuk kontribusi InfoQ untuk memperjelas aspek
reproduktifitas, pengulangan, dan replikasi penelitian dan publikasi ilmiah. InfoQ adalah konstruksi
empiris dan fleksibel dengan penerapan praktis tak terbatas dalam analisis data. Dalam konteks
kebijakan, InfoQ dapat digunakan untuk membandingkan berbagai dasar bukti yang mendukung
atau menentang suatu kebijakan, atau berbagai pilihan dalam kasus penilaian dampak. InfoQ adalah
konstruksi holistik yang mencakup data, metode, dan tujuan analisis. Hal ini melampaui dimensi
kualitas data yang ditemukan dalam statistik resmi dan menyerupai konsep kinerja yang lebih holistik
seperti silsilah analisis (NUSAP) dan audit sensitivitas. Dengan demikian InfoQ mencakup
pertimbangan analisis Generalisasi dan Operasionalisasi Tindakan. Yang terakhir mencakup
operasionalisasi tindakan (sejauh mana tindakan nyata dapat diperoleh dari informasi yang diberikan
oleh suatu penelitian) dan operasionalisasi konstruk (sejauh mana konstruk yang dianalisis secara
efektif ditangkap oleh variabel yang dipilih untuk tujuan tertentu). Fitur InfoQ yang diinginkan adalah
ia memerlukan keterampilan multidisiplin, yang mungkin memaksa ahli statistik untuk keluar dari
zona nyaman mereka ke dunia nyata. Buku ini mengilustrasikan delapan dimensi InfoQ dengan
banyak contoh. Bacaan yang direkomendasikan untuk ahli statistik terapan dan ahli ekonometri yang
peduli dengan implikasi pekerjaan mereka.
Andrea Saltelli
Pusat Pemerintahan Eropa dalam Kompleksitas
Kenett dan Shmueli telah memberikan kontribusi yang signifikan terhadap profesi ini dengan menarik
perhatian pada aspek analisis yang sering kali paling penting namun diabaikan; kualitas informasi.
Misalnya, buku teks statistik terlalu sering berasumsi bahwa data terdiri dari sampel acak dan diukur
tanpa kesalahan, dan kompetisi ilmu data secara implisit berasumsi bahwa kumpulan data yang
sangat besar berisi data berkualitas tinggi dan merupakan data yang dibutuhkan untuk mengatasi
masalah yang ada. . Pada kenyataannya, tentu saja, sampel acak merupakan pengecualian dan
bukan aturan, dan banyak kumpulan data, bahkan yang berukuran sangat besar, tidak sebanding
dengan upaya yang diperlukan untuk menganalisisnya. Analisis mirip dengan penambangan, bukan
alkimia; metodenya hanya dapat mengekstraksi apa yang ada pada awalnya. Kenett dan Shmueli
menjelaskan bahwa memperoleh data yang baik biasanya memerlukan upaya yang signifikan.
Untungnya, mereka menyajikan metrik untuk membantu analis memahami keterbatasan informasi
yang ada, dan cara memperbaikinya di masa mendatang. Kudos kepada penulis atas kontribusi
penting ini.
Roger Hoerl
Union College, Schenectady, NY AS
Machine Translated by Google
www.wiley.com/go/information_quality
Di sini Anda akan menemukan materi berharga yang dirancang untuk meningkatkan
pembelajaran Anda, termasuk:
2. Lima studi kasus yang dapat digunakan sebagai latihan penilaian InfoQ
Bagian I
Informasi
Kerangka Mutu
Machine Translated by Google
Machine Translated by Google
Pengantar
kualitas informasi
1.1 Pendahuluan
Misalkan Anda melakukan penelitian tentang lelang online dan mempertimbangkan untuk
membeli kumpulan data dari eBay, platform lelang online, untuk tujuan penelitian Anda.
Vendor data menawarkan empat opsi yang sesuai anggaran Anda:
1. Data seluruh lelang online yang berlangsung pada bulan Januari 2012
2. Data seluruh lelang online khusus kamera yang berlangsung pada tahun 2012
3. Data seluruh lelang online khusus kamera yang akan berlangsung pada tahun depan
4. Data sampel acak lelang online yang berlangsung pada tahun 2012
Opsi mana yang akan Anda pilih? Mungkin tidak satupun dari pilihan ini yang bernilai? Tentu
saja jawabannya tergantung pada tujuan penelitian. Namun hal ini juga bergantung pada
pertimbangan lain seperti metode dan alat analisis yang akan Anda gunakan, kualitas data,
dan kegunaan yang ingin Anda peroleh dari analisis tersebut. Dalam perkataan David Hand
(2008):
© 2017 John Wiley & Sons, Ltd. Diterbitkan 2017 oleh John Wiley & Sons, Ltd.
Situs web pendamping: www.wiley.com/go/information_quality
Machine Translated by Google
Meskipun mereka yang berpengalaman dalam analisis data akan menganggap dilema ini familier,
statistik dan literatur terkait tidak memberikan panduan tentang cara menjawab pertanyaan ini secara
metodis dan cara mengevaluasi nilai kumpulan data dalam skenario seperti itu.
Statistika, penambangan data, ekonometrik, dan bidang terkait adalah disiplin ilmu yang berfokus
pada penggalian pengetahuan dari data. Mereka menyediakan perangkat untuk menguji hipotesis
yang menarik, memprediksi pengamatan baru, mengukur dampak populasi, dan merangkum data
secara efisien. Dalam bidang empiris ini, data terukur digunakan untuk memperoleh pengetahuan.
Namun, kumpulan data yang bersih, tepat, dan lengkap, yang dianalisis secara profesional, mungkin
tidak berisi informasi yang berguna untuk masalah yang sedang diselidiki. Sebaliknya, kumpulan
data yang sangat “kotor”, dengan nilai yang hilang dan cakupan yang tidak lengkap, dapat berisi
informasi yang berguna untuk beberapa tujuan. Dalam beberapa kasus, data yang tersedia bahkan
bisa menyesatkan (Patzer, 1995, hal. 14):
Data mungkin bernilai kecil atau tidak bernilai sama sekali, atau bahkan bernilai negatif, jika memberikan informasi yang salah.
Fokus buku ini adalah menilai potensi kumpulan data tertentu untuk mencapai tujuan analisis tertentu
dengan menggunakan metode analisis data dan mempertimbangkan kegunaan tertentu. Kami
menyebutnya konsep kualitas informasi (InfoQ). Kami mengusulkan definisi formal InfoQ dan
memberikan pedoman untuk penilaiannya. Tujuan kami adalah untuk menawarkan kerangka umum
yang berlaku untuk penelitian empiris. Elemen tersebut belum mendapat banyak perhatian dalam
kumpulan pengetahuan profesi statistika dan dapat dianggap sebagai kontribusi baik terhadap teori
maupun praktik statistik terapan (Kennett, 2015).
Kerangka kerja untuk menilai InfoQ diperlukan baik ketika merancang sebuah studi untuk
menghasilkan temuan InfoQ tinggi maupun pada tahap pascadesain, setelah data dikumpulkan.
Pertanyaan mengenai nilai data yang akan dikumpulkan, atau yang telah dikumpulkan, mempunyai
implikasi penting baik dalam penelitian akademis maupun dalam praktik. Dengan motivasi tersebut,
kami membangun konsep InfoQ dan kemudian mengoperasionalkannya sehingga dapat
diimplementasikan dalam praktik.
Dalam buku ini, kami membahas dan mengatasi permasalahan tingkat tinggi yang merupakan
inti dari setiap analisis data. Daripada berkonsentrasi pada serangkaian metode atau penerapan
tertentu, kami mempertimbangkan konsep umum yang mendasari setiap analisis empiris. Oleh karena
itu, kerangka InfoQ berkontribusi pada literatur tentang strategi statistik, yang juga dikenal sebagai
metastatistik (lihat Hand, 1994).
Sebelum menjelaskan masing-masing dari empat komponen InfoQ, kami memperkenalkan notasi
dan definisi berikut untuk membantu menghindari kebingungan:
•
g menunjukkan tujuan analisis tertentu.
Kami menggunakan indeks subskrip untuk menunjukkan alternatif. Misalnya, untuk menyampaikan K
tujuan analisis yang berbeda, kita menggunakan g1 , g2 ,…, gK; J metode analisis yang berbeda
1 , f2 ,…, f J . f
dilambangkan
Mengikuti definisi statistik Hand (2008) sebagai “teknologi mengekstraksi makna dari data,” kita dapat
menganggap kerangka InfoQ sebagai kerangka kerja untuk mengevaluasi penerapan teknologi (analisis
data) pada sumber daya (data) untuk tujuan tertentu.
Salah satu pendekatan klasifikasi membagi domain dan tujuan analisis menjadi tiga kelas umum:
penjelasan kausal, prediksi empiris, dan deskripsi (lihat Shmueli, 2010; Shmueli dan Koppius, 2011).
Penjelasan kausal berkaitan dengan membangun dan mengukur hubungan sebab akibat antara masukan
dan hasil yang diinginkan. Eksperimen laboratorium dalam ilmu kehidupan sering kali dimaksudkan untuk
membangun hubungan sebab akibat. Penelitian akademis dalam ilmu-ilmu sosial biasanya berfokus pada
penjelasan kausal. Dalam konteks ilmu sosial, struktur kausalitas didasarkan pada model teoritis yang
menetapkan dampak sebab akibat dari beberapa konstruksi (konsep abstrak) pada konstruksi lainnya.
Oleh karena itu, tahap pengumpulan data didahului dengan tahap operasionalisasi konstruk , dimana
peneliti menetapkan variabel terukur mana yang dapat mewakili konstruk yang diinginkan. Contohnya
adalah menyelidiki pengaruh sebab akibat kecerdasan orang tua terhadap kecerdasan anak. Konstruk
“kecerdasan” dapat diukur dengan berbagai cara, misalnya melalui tes IQ. Tujuan prediksi empiris berbeda
dengan penjelasan kausal.
Contohnya termasuk memperkirakan nilai masa depan dari suatu deret waktu dan memprediksi nilai
keluaran untuk observasi baru berdasarkan sekumpulan variabel masukan. Contohnya mencakup sistem
rekomendasi di berbagai situs web, yang ditujukan untuk memprediksi layanan atau produk yang
kemungkinan besar akan diminati oleh pengguna. Prediksi perekonomian adalah jenis tujuan prediksi
lainnya, dengan perkiraan tertentu
Machine Translated by Google
ukuran atau indeks ekonomi yang menjadi perhatian. Terakhir, tujuan deskriptif mencakup
penghitungan dan pengujian dampak populasi dengan menggunakan ringkasan data, visualisasi
grafis, model statistik, dan pengujian statistik.
Pendekatan klasifikasi tujuan yang berbeda namun terkait (Deming, 1953) memperkenalkan
perbedaan antara studi enumeratif, yang bertujuan menjawab pertanyaan “berapa banyak?”, dan
studi analitik, yang bertujuan menjawab pertanyaan “mengapa?”
Klasifikasi ketiga (Tukey, 1977) mengklasifikasikan penelitian ke dalam analisis data eksploratif
dan konfirmasi.
Penggunaan istilah “sasaran” kami mencakup semua jenis sasaran dan klasifikasi sasaran
yang berbeda-beda. Untuk contoh tujuan tersebut dalam konteks survei kepuasan pelanggan, lihat
Bab 7 dan Kenett dan Salini (2012).
ukuran kebaikan. Dalam pemodelan penjelasan kausal, signifikansi statistik, kekuatan statistik, dan
ukuran kekuatan kesesuaian (misalnya, R2 ) adalah hal yang umum.
Infoq , g X, f U, | kamu f x g
Kualitas informasi, InfoQ, ditentukan oleh kualitas komponennya g (“kualitas definisi tujuan”),
X (“kualitas data”), f (“kualitas analisis”), dan U (“kualitas ukuran utilitas” ) serta hubungan di antara
mereka. (Lihat Gambar 1.1 untuk representasi visual komponen InfoQ.)
Studi kasus 1 Faktor penentu yang mempengaruhi harga akhir suatu lelang
Ahli ekonometrika tertarik untuk menentukan faktor-faktor yang mempengaruhi harga akhir lelang
online. Meskipun teori permainan memberikan model kausal teoretis yang mendasari harga
dalam lelang offline, lingkungan online berbeda dalam banyak hal. Platform lelang online seperti
eBay.com telah menurunkan hambatan masuk bagi penjual dan pembeli untuk berpartisipasi
dalam lelang. Aturan dan pengaturan lelang dapat berbeda dari lelang tradisional di lapangan,
begitu pula dinamika antar penawar.
Mari kita periksa studi “Harga Cadangan Publik versus Rahasia di Lelang eBay: Hasil dari
Eksperimen Lapangan Pokémon” (Katkar dan Reiley, 2006) yang menyelidiki pengaruh dua
jenis harga cadangan pada harga lelang akhir. Harga cadangan adalah nilai yang ditetapkan
oleh penjual pada awal lelang. Jika harga akhir tidak melebihi harga cadangan, maka lelang
tidak ditransaksikan. Di eBay, penjual dapat memilih untuk menempatkan harga cadangan publik
yang terlihat oleh penawar atau harga cadangan rahasia yang tidak terlihat, di mana penawar
hanya melihat bahwa ada harga cadangan tetapi tidak mengetahui nilainya.
Kami bertanya, secara empiris, apakah penjual menjadi lebih baik atau lebih buruk dengan
menetapkan cadangan rahasia di atas tawaran minimum yang rendah, dibandingkan pilihan untuk
menjadikan cadangan tersebut publik dengan menggunakannya sebagai tingkat penawaran minimum.
Pertanyaan ini kemudian diubah menjadi tujuan statistik (g) untuk menguji hipotesis “bahwa
harga cadangan rahasia sebenarnya menghasilkan pendapatan yang diharapkan lebih tinggi.”
Data (X)
penawar, dan harga akhir di masing-masing 100 lelang, serta apakah lelang tersebut memiliki
harga rahasia atau harga cadangan publik. Kumpulan data tersebut juga mencakup informasi
tentang pilihan penjual, seperti waktu mulai dan penutupan setiap lelang, biaya pengiriman,
dll. Kumpulan data ini merupakan X.
Analisis data ( f)
Para peneliti memutuskan untuk “mengukur dampak dari harga cadangan rahasia (relatif
terhadap cadangan publik yang setara) pada tiga variabel independen yang berbeda:
kemungkinan lelang menghasilkan penjualan, jumlah tawaran yang diterima, dan harga yang
diterima untuk penjualan. kartu dalam pelelangan.” Hal ini dilakukan melalui model regresi
linier ( f ). Misalnya, hasil penjualan/tidak ada penjualan diregresi berdasarkan jenis cadangan
(publik/swasta) dan variabel kontrol lainnya, dan signifikansi statistik dari variabel cadangan
diperiksa.
Utilitas (U)
Bagaimana kualitas informasi yang terkandung dalam kumpulan data penelitian ini untuk
menguji pengaruh harga cadangan swasta versus harga publik terhadap harga akhir, dengan
menggunakan model regresi dan signifikansi statistik? Para penulis membandingkan
keuntungan desain eksperimen mereka untuk menjawab pertanyaan yang mereka minati
dengan desain penelitian sebelumnya yang menggunakan data observasi:
Dengan kata lain, dengan eksperimen dua tingkat yang sederhana, penulis bertujuan untuk
menjawab pertanyaan penelitian spesifik (g1 ) dengan cara yang kuat, daripada membangun
model ekonomi teoritis yang luas (g2 ) yang didasarkan pada banyak asumsi.
Hasil kami agak tidak konsisten dengan hasil Bajari dan Hortaçsu…. Mungkin Bajari
dan Hortaçsu telah membuat asumsi pemodelan yang tidak akurat, atau mungkin
ada beberapa perbedaan penting antara menawar set koin dan menawar kartu
Pokémon.
Perbedaan ini bahkan mengarahkan para peneliti untuk mengusulkan kumpulan data baru yang dapat
membantu mencapai tujuan awal dengan lebih sedikit kebingungan:
Artinya, InfoQ dataset lelang kartu Pokémon dianggap lebih rendah dibandingkan item yang lebih
mahal.
Studi kasus 2 Memprediksi harga akhir suatu lelang pada awal lelang
Pada hari tertentu, ribuan lelang dilakukan secara online. Peramalan harga lelang yang sedang
berlangsung bermanfaat bagi pembeli, penjual, balai lelang, dan pihak ketiga. Bagi calon penawar,
perkiraan harga dapat digunakan untuk memutuskan apakah, kapan, dan berapa banyak yang
akan ditawar. Bagi penjual, perkiraan harga dapat membantu memutuskan apakah dan kapan
akan memposting item lain untuk dijual. Untuk balai lelang dan pihak ketiga, layanan seperti
asuransi penjual dapat ditawarkan dengan tarif yang dapat disesuaikan. Oleh karena itu, terdapat
kemungkinan tujuan berbeda untuk studi empiris di mana harga adalah variabel hasil, yang
diterjemahkan ke dalam InfoQ berbeda dari suatu kumpulan data. Kami menjelaskan dalam teks
berikutnya satu studi tertentu.
Dalam studi yang dilakukan oleh Ghani dan Simmons (2004), para peneliti mengumpulkan data
historis lelang dari eBay dan menggunakan algoritma pembelajaran mesin untuk memprediksi
harga akhir barang lelang. Pertanyaan mereka (g) adalah apakah harga akhir lelang online dapat
diprediksi secara akurat menggunakan metode pembelajaran mesin. Ini
Machine Translated by Google
tujuan prediksi ke depan, dan hasil penelitian dapat meningkatkan pengetahuan ilmiah
tentang prediktabilitas harga lelang online serta menjadi dasar penerapan praktis.
Data (X)
Data yang dikumpulkan untuk setiap lelang tertutup mencakup informasi tentang penjual,
barang, format lelang, dan “fitur sementara” (statistik harga: penawaran awal, harga
pengiriman, dan harga akhir) dari lelang lain yang ditutup baru-baru ini. Perhatikan bahwa
semua informasi ini tersedia pada awal lelang yang diminati dan oleh karena itu dapat
digunakan sebagai prediktor harga akhirnya. Dalam kaitannya dengan variabel hasil yang
menjadi perhatian—harga—datanya mencakup harga akhir dalam bentuk numerik (dalam
USD). Namun, penulis mempertimbangkan dua versi variabel ini: variabel kontinu mentah
dan variabel harga kategori multikelas yang harga numeriknya dimasukkan ke dalam
interval $5.
Analisis data ( f)
Dalam penelitian ini, beberapa algoritma prediksi (f) digunakan: untuk harga numerik,
mereka menggunakan regresi linier (dan “regresi polinomial dengan derajat 2 dan 3”).
Untuk harga kategoris, mereka menggunakan pohon klasifikasi dan jaringan saraf.
Utilitas (U)
Karena tujuan penulis berfokus pada akurasi prediksi, ukuran kinerja mereka (U) dihitung
dari set ketidaksepakatan (RMSE untuk harga numerik dan % akurasi untuk harga
kategorikal). Set ini terdiri dari 400 lelang yang tidak digunakan saat membuat (“pelatihan”)
model. Mereka membandingkan kinerjanya dengan prediksi naif—harga rata-rata (untuk
harga numerik) atau kumpulan harga paling umum (untuk harga kategoris). Para penulis
menyimpulkan:
Semua metode yang kami gunakan[d] efektif dalam memprediksi hasil akhir.
harga lelang. Hasil regresi tidak begitu menjanjikan dibandingkan hasil
klasifikasi, terutama karena tugasnya lebih sulit karena harga yang diprediksi
adalah harga pasti, bukan kisaran harga. Di masa depan, kami berencana
untuk mempersempit kelompok untuk kisaran harga dan bereksperimen
dengan menggunakan algoritma klasifikasi untuk mencapai hasil yang lebih baik.
hasil yang berbutir.
Sesuai dengan tujuan penelitian mereka, kumpulan data tersebut terbukti memiliki InfoQ yang tinggi.
Selain itu, mereka mampu menegaskan perbedaan InfoQ antara dua versi data mereka
(harga numerik dan kategorikal). Mengikuti hasil mereka,
Machine Translated by Google
penulis mengusulkan dua aplikasi yang mungkin berguna untuk memprediksi interval harga
suatu lelang:
Listing Optimizer: Model harga akhir berdasarkan atribut input lelang juga
dapat digunakan untuk membantu penjual mengoptimalkan harga jual barangnya.
Studi kasus 3 Memprediksi harga akhir dari lelang yang sedang berlangsung
Kami sekarang mempertimbangkan studi yang berbeda, juga terkait dengan prediksi harga
akhir lelang online, namun dalam kasus ini prediksi akan dihasilkan selama lelang yang sedang
berlangsung. Model yang digunakan oleh Ghani dan Simmons (2004) untuk meramalkan
harga suatu lelang adalah “model statis” dalam artian model tersebut menggunakan informasi
yang tersedia pada awal lelang, tetapi tidak tersedia di kemudian hari. Hal ini harus terjadi jika
perkiraan harga dilakukan pada awal lelang.
Perkiraan harga lelang yang sedang berlangsung berbeda-beda: selain informasi yang tersedia
pada awal lelang, kita dapat memperhitungkan semua informasi yang tersedia pada saat
prediksi, seperti tawaran yang telah diajukan sejauh ini.
Tujuan (g) dinyatakan oleh Wang dkk. (2008) adalah mengembangkan model peramalan yang
memprediksi harga akhir lelang online yang sedang berlangsung dengan lebih akurat
dibandingkan model tradisional. Ini adalah tujuan yang bersifat prediktif dan berwawasan ke
depan, yang bertujuan untuk membandingkan pendekatan pemodelan baru dengan metode
yang sudah ada. Selain tujuan perkiraan utama, penulis juga menyatakan tujuan sekunder,
untuk “mendeskripsikan secara sistematis keteraturan empiris dinamika lelang.”
Machine Translated by Google
Data (X)
Para peneliti mengumpulkan data dari 190 lelang tertutup selama tujuh hari untuk
sistem permainan Microsoft Xbox dan Harry Potter dan Pangeran Berdarah Campuran.
buku yang dijual di eBay.com pada bulan Agustus–September 2005. Untuk setiap
lelang, data mencakup riwayat penawaran (jumlah tawaran, cap waktu, dan
identifikasi penawar) dan informasi mengenai karakteristik produk, parameter lelang
(misalnya, hari dalam seminggu tempat pelelangan dimulai), dan penawar dan
penjual. Informasi riwayat penawaran, yang mencakup waktu dan jumlah penawaran
yang diajukan selama lelang, juga digunakan sebagai informasi prediktor.
Analisis data ( f)
Model peramalan yang dikemukakan oleh Wang et al. (2008) didasarkan pada
representasi urutan penawaran dari setiap lelang dengan kurva halus (menggunakan
analisis data fungsional). Contoh empat lelang ditunjukkan pada Gambar 1.2.
Kemudian, model regresi harga pada waktu t mencakup empat jenis prediktor:
B. Prediktor yang bervariasi terhadap waktu (seperti jumlah tawaran pada waktu t)
08
7
9
agraH
0srP
6
e
8
7
6
05
4
6.2 6.4 6.6 6.8 7.0 6.2 6.4 6.6 6.8 7.0
agraH
agraH
7
6
5
06
1
8
6.2 6.4 6.6 6.8 7.0 6.2 6.4 6.6 6.8 7.0
Gambar 1.2 Kurva harga pada hari terakhir dari empat lelang tujuh hari (sumbu x
menunjukkan hari lelang). Harga lelang saat ini (garis berbentuk lingkaran), kurva
harga fungsional (garis halus) dan kurva harga perkiraan (garis putus-putus).
Machine Translated by Google
D. Harga tertinggal
Q J L
dimana x1 (t),…, xQ(t) adalah himpunan prediktor statis dan variasi waktu, D(j) y(t)
menyatakan turunan harga ke-j pada waktu t, dan y(tÿl) adalah ketertinggalan harga.
Ramalan h -step-ahead, dengan informasi yang diberikan hingga waktu T, diberikan oleh
ˆ Q ˆ J ˆ L ˆ
kamu T h T xThT D yJ T h T kamu T jam T1 .
Saya Saya
J L
Saya 1 J 1 aku 1
Utilitas (U)
Seperti dalam studi kasus 2, akurasi prediksi pada serangkaian lelang yang tidak
digunakan digunakan untuk mengevaluasi kinerja model. Dalam studi ini, penulis melihat
dua jenis kesalahan: (i) membandingkan kurva harga fungsional dan kurva harga yang
diperkirakan, dan (ii) membandingkan kurva perkiraan dengan harga lelang aktual saat
ini.
Penulis memanfaatkan informasi dalam data lelang online yang biasanya tidak
digunakan dalam penelitian lain untuk memperkirakan harga akhir lelang: informasi
yang tersedia selama lelang mengenai jumlah dan waktu penawaran.
Mereka menunjukkan bahwa informasi tambahan ini, jika diintegrasikan ke dalam model prediksi,
dapat meningkatkan akurasi perkiraan. Oleh karena itu, mereka menunjukkan bahwa InfoQ
tergolong tinggi dengan menghasilkan perkiraan yang lebih akurat serta memberikan lebih
banyak penjelasan tentang hubungan antara berbagai fitur lelang dan dinamika penawaran yang dihasilkan.
Para penulis menyimpulkan:
Para peneliti menyatakan tujuan (g) sebagai memperkirakan surplus konsumen yang dihasilkan
di eBay pada tahun 2003. Ini adalah tujuan deskriptif, dan tujuannya adalah untuk memperkirakan
kuantitas ini dengan akurasi sebanyak mungkin.
Data (X)
Karena eBay tidak mengungkapkan tawaran tertinggi dalam sebuah lelang, para peneliti
menggunakan kumpulan data besar dari Cniper.com, alat berbasis web yang pada saat itu
digunakan oleh banyak pengguna eBay untuk mengajukan “tawaran menit terakhir”.
Menempatkan tawaran sangat dekat dengan penutupan lelang (“sniping”) adalah taktik untuk
memenangkan lelang dengan menghindari penempatan tawaran yang lebih tinggi oleh penawar
yang bersaing. Kumpulan data Cniper berisi tawaran tertinggi untuk semua pemenang. Penulis
kemudian menggabungkan informasi Cniper dengan data eBay untuk lelang tersebut dan
memperoleh kumpulan data 4.514 lelang yang berlangsung antara Januari dan April 2003.
Kumpulan data mereka juga unik karena berisi informasi mengenai lelang dalam tiga mata
uang berbeda dan di seluruh eBay. Kategori Produk.
Analisis empiris ( f)
Para peneliti menghitung surplus median dengan menggunakan median sampel dengan interval
kepercayaan bootstrap 95%. Mereka memeriksa berbagai subkumpulan data dan menggunakan
analisis regresi untuk mengoreksi kemungkinan bias dan mengevaluasi ketahanan terhadap
berbagai pelanggaran asumsi. Misalnya, mereka membandingkan sampel mereka dengan
sampel acak dari eBay dalam hal berbagai variabel, untuk mengevaluasi apakah pemenang
Cniper lebih cerdas dan karenanya memperoleh surplus yang lebih tinggi.
Machine Translated by Google
Utilitas (U)
Ketepatan estimasi nilai lebih diukur melalui interval kepercayaan. Bias akibat pengambilan
sampel yang tidak representatif diukur dengan menghitung batas atas.
Kumpulan data unik yang tersedia bagi para peneliti memungkinkan mereka menghitung
metrik yang tidak tersedia dari informasi yang tersedia untuk umum di eBay.com. Para
peneliti melakukan analisis khusus untuk mengoreksi berbagai bias dan sampai pada
perkiraan kepentingan dengan batasan konservatif. Oleh karena itu, InfoQ kumpulan data
ini tinggi untuk tujuan penelitian.
1.6 Ringkasan
Pada bab ini kami memperkenalkan konsep InfoQ dan empat komponennya. Pada bab berikut,
kita membahas perbedaan InfoQ dari konsep umum kualitas data dan kualitas analisis. Beralih
dari sebuah konsep ke kerangka kerja yang dapat diterapkan dalam praktik memerlukan
metodologi untuk menilai InfoQ. Pada Bab 3, kami membagi InfoQ menjadi delapan dimensi,
untuk memfasilitasi penilaian InfoQ secara kuantitatif. Bab terakhir (Bab 4 dan 5) di bagian I
mengkaji metodologi statistik yang ada yang bertujuan untuk meningkatkan InfoQ pada tahap
desain penelitian dan pada tahap pengumpulan postdata. Menata dan mengkaji berbagai
pendekatan statistik melalui lensa InfoQ menciptakan gambaran yang lebih jelas tentang peran
berbagai pendekatan statistik
Machine Translated by Google
dan metode, sering kali diajarkan dalam kursus yang berbeda atau digunakan dalam bidang yang
berbeda. Singkatnya, InfoQ adalah tentang menilai dan meningkatkan potensi kumpulan data untuk
mencapai tujuan tertentu menggunakan metode dan kegunaan analisis data tertentu. Buku ini
membahas tentang penataan dan konsolidasi pendekatan semacam itu.
Referensi
Bapna, R., Jank, W. dan Shmueli, G. (2008) Surplus konsumen dalam lelang online. Informasi
Penelitian Sistem, 19, hlm.400–416.
Deming, WE (1953) Tentang perbedaan antara studi enumeratif dan analitik. Jurnal dari
Asosiasi Statistik Amerika, 48, hlm.244–255.
Ghani, R. dan Simmons, H. (2004) Memprediksi Harga Akhir Lelang Online. Lokakarya Internasional
tentang Penambangan Data dan Metode Pemodelan Adaptif untuk Ekonomi dan Manajemen, Pisa,
Italia.
Hand, DJ (1994) Mendekonstruksi pertanyaan statistik (dengan diskusi). Jurnal Kerajaan
Masyarakat Statistik, Seri A, 157(3), hlm.317–356.
Hand, DJ (2008) Statistik: Pengantar yang Sangat Singkat. Pers Universitas Oxford, Oxford.
Jank, W. dan Shmueli, G. (2010) Pemodelan Lelang Online. John Wiley & Sons, Inc.,
Hoboken.
Katkar, R. dan Reiley, DH (2006) Harga cadangan publik versus rahasia dalam lelang eBay: hasil dari
eksperimen lapangan Pokemon. Kemajuan dalam Analisis dan Kebijakan Ekonomi, 6(2), pasal 7.
Kenett, RS (2015) Statistik: pandangan siklus hidup (dengan diskusi). Rekayasa Kualitas, 27(1),
hal.111–129.
Kenett, RS dan Salini, S. (2012) Analisis modern survei pelanggan: perbandingan model dan analisis
terintegrasi (dengan diskusi). Model Stokastik Terapan dalam Bisnis dan Industri, 27, hlm.465–475.
Kenett, RS dan Shmueli, G. (2014) Tentang kualitas informasi (dengan diskusi). Jurnal
Royal Statistical Society, Seri A, 177(1), hlm.3–38.
Marshall, A. (1920) Prinsip Ekonomi, edisi ke-8. MacMillan, London.
Patzer, GL (1995) Menggunakan Data Sekunder dalam Riset Pemasaran. Praeger, Westport, CT.
Shmueli, G. (2010) Untuk menjelaskan atau memprediksi? Ilmu Statistik, 25, hlm.289–310.
Shmueli, G. dan Koppius, OR (2011) Analisis prediktif dalam penelitian sistem informasi.
Sistem Informasi Manajemen Triwulanan, 35, hlm.553–572.
Tukey, JW (1977) Analisis Data Eksplorasi. Addison-Wesley, Reading, PA.
Wang, S., Jank, W. dan Shmueli, G. (2008) Menjelaskan dan memperkirakan harga lelang online dan
dinamikanya menggunakan analisis data fungsional. Jurnal Statistik Bisnis dan Ekonomi, 26, hlm.144–
160.
Machine Translated by Google
2.1 Pendahuluan
Jauh lebih baik memberikan perkiraan jawaban atas pertanyaan yang tepat , yang sering kali
tidak jelas, daripada jawaban tepat atas pertanyaan yang salah, yang selalu dapat dibuat tepat.
Pada tingkat paling dasar, kualitas suatu tujuan yang diteliti bergantung pada apakah tujuan yang
dinyatakan itu menarik dan relevan baik secara ilmiah maupun praktis.
Pada tingkat berikutnya, kualitas suatu tujuan diperoleh dari penerjemahan tujuan ilmiah atau praktis menjadi
tujuan empiris. Langkah yang menantang ini memerlukan pengetahuan tentang domain masalah dan analisis
data serta memerlukan kolaborasi erat antara analis data dan pakar domain. Tujuan empiris yang terdefinisi
dengan baik adalah tujuan yang mencerminkan tujuan ilmiah atau praktis dengan tepat. Meskipun kumpulan
data dapat berguna untuk satu tujuan ilmiah g1 , kumpulan data tersebut bisa jadi sama sekali tidak berguna
untuk tujuan ilmiah kedua g2 .
Misalnya, data suhu rata-rata bulanan suatu kota dapat digunakan untuk mengukur dan memahami
tren masa lalu dan pola musiman, sasaran g1 , digunakan secara efektif untuk menghasilkantapi tidak bisa
prakiraan cuaca harian di masa depan, sasaran g2 . Oleh karena itu,
tantangannya adalah untuk menentukan pertanyaan empiris yang tepat yang sedang diteliti untuk menghindari
apa yang disebut Kimball (1957) sebagai “kesalahan jenis ketiga” atau “memberikan jawaban yang benar
terhadap pertanyaan yang salah.”
© 2017 John Wiley & Sons, Ltd. Diterbitkan 2017 oleh John Wiley & Sons, Ltd.
Situs web pendamping: www.wiley.com/go/information_quality
Machine Translated by Google
Jelas bahwa menetapkan pemetaan dari domain klien ke pertanyaan statistik adalah
salah satu bagian tersulit dalam analisis statistik.
Selain itu, Mackay, dan Oldford (2000) mencatat bahwa langkah penting ini jarang disebutkan
dalam buku teks pengantar statistik:
Memahami apa yang dapat dipelajari dari suatu penyelidikan sangatlah penting sehingga
mengejutkan bahwa hal ini jarang, jika tidak pernah, dibahas dalam pengantar statistik
apa pun. Dalam tinjauan sepintas, kami tidak menemukan teks statistik dasar yang
memberikan struktur untuk memahami masalah.
Beberapa penulis telah mengindikasikan bahwa tindakan menemukan dan merumuskan masalah
merupakan aspek kunci dari pemikiran dan kinerja kreatif, suatu tindakan yang berbeda, dan mungkin
lebih penting daripada, pemecahan masalah (lihat Jay dan Perkins, 1997).
Masalah kualitas definisi tujuan sering muncul ketika menerjemahkan bahasa pemangku
kepentingan ke dalam jargon empiris. Contohnya adalah seorang manajer pemasaran yang meminta
seorang analis untuk menggunakan data perusahaan yang ada untuk “memahami apa yang membuat
pelanggan merespons secara positif atau negatif terhadap iklan kami.” Analis mungkin menerjemahkan
pernyataan ini ke dalam tujuan empiris untuk mengidentifikasi faktor penyebab yang mempengaruhi
respons pelanggan terhadap iklan, yang kemudian dapat mengarah pada perancangan dan pelaksanaan
eksperimen acak. Namun, diskusi mendalam dengan manajer pemasaran dapat mengarahkan analis
untuk menemukan bahwa hasil analisis dimaksudkan untuk digunakan untuk menargetkan pelanggan
baru dengan iklan. Meskipun manajer menggunakan istilah bahasa Inggris “memahami”, tujuannya
dalam bahasa empiris adalah “memprediksi respons iklan pelanggan di masa depan”. Oleh karena itu,
analis harus mengembangkan dan mengevaluasi model prediktif, bukan model penjelasan. Untuk
menghindari miskomunikasi seperti itu, langkah penting bagi analis adalah mempelajari cara
memperoleh informasi yang diperlukan dari pemangku kepentingan dan memahami bagaimana tujuan
mereka diterjemahkan ke dalam bahasa empiris.
Salah satu pendekatan yang berguna untuk menyusun tujuan empiris adalah pembuatan skenario,
dimana analis menyajikan skenario yang berbeda kepada pemangku kepentingan tentang bagaimana
hasil analisis dapat digunakan. Umpan balik dari pemangku kepentingan membantu mempersempit
kesenjangan antara tujuan yang dimaksudkan dan terjemahan empirisnya. Pendekatan lain yang
digunakan dalam mengembangkan sistem teknologi informasi (TI) terintegrasi adalah dengan melakukan
perolehan tujuan dengan menggunakan peta organisasi. Disiplin yang dikembangkan sepenuhnya,
terkadang disebut rekayasa persyaratan berorientasi tujuan (GORE), dirancang untuk melakukan hal
tersebut (Dardenne et al., 1993; Regev dan Wegmann, 2005).
Machine Translated by Google
Selain itu, kerangka InfoQ dapat digunakan untuk meningkatkan proses perolehan tujuan dan pembuatan
hipotesis. Seringkali peneliti merumuskan tujuan mereka setelah mereka melihat dan berinteraksi dengan data.
Dalam komentarnya pada makalah “Tentang Kualitas Informasi” (Knett dan Shmueli, 2013), Schouten (2013)
menulis tentang pentingnya dan kesulitan dalam menentukan tujuan studi dan peran kerangka InfoQ dalam
meningkatkan kualitas definisi tujuan. . Dia menulis:
Unsur yang menentukan kualitas informasi adalah tujuan atau sasaran yang telah ditetapkan
peneliti ketika memulai analisis. Dari pengalaman saya sendiri dan melihat analisis yang
dilakukan oleh orang lain, saya menyimpulkan bahwa tujuan penelitian mungkin tidak didefinisikan
dan/atau dinyatakan secara ketat sebelumnya. Tentu saja hal-hal tersebut harus didefinisikan
dengan baik untuk menilai kelayakan penggunaan data, namun sering kali eksplorasi dan analisis
data mempertajam pikiran peneliti dan tujuan terbentuk secara interaktif. Oleh karena itu, saya
yakin bahwa penilaian terhadap dimensi InfoQ sebenarnya dapat membantu dalam memperoleh
tujuan analisis yang lebih spesifik dan terperinci. Namun, saya menduga bahwa kerangka kerja
ini hanya akan efektif jika peneliti mempunyai tujuan yang jelas.
Jarang sekali kita menemukan kumpulan data yang tidak mempunyai masalah kualitas.
Tangan, 2008
Kualitas data adalah subjek yang sangat penting. Sayangnya, hal ini merupakan salah
satu subjek yang paling sedikit dipahami dalam manajemen mutu dan sering kali
diabaikan begitu saja.
Godfrey, 2008
Kualitas data telah lama diakui oleh para ahli statistik dan analis data sebagai tantangan serius.
Hampir semua data memerlukan pembersihan sebelum dapat digunakan lebih lanjut untuk analisis.
Namun, tingkat kebersihan dan pendekatan pembersihan data bergantung pada tujuannya. Dengan
menggunakan notasi InfoQ, kualitas data biasanya menyangkut U(X|g).
Data yang sama dapat berisi informasi berkualitas tinggi untuk satu tujuan dan informasi berkualitas
rendah untuk tujuan lain. Hal ini telah disadari dan diatasi di beberapa bidang.
Mallows (1998) mengemukakan masalah yang ke-nol, menanyakan “Bagaimana data berhubungan
dengan masalah, dan data lain apa yang mungkin relevan?” Berikut ini kami secara singkat mengkaji
beberapa pendekatan terhadap kualitas data di berbagai bidang dan menunjukkan perbedaannya
dengan InfoQ.
Tingkat kualitas data yang dapat diterima mungkin berbeda antara satu pengguna dengan pengguna lainnya.
Seorang investor yang secara longgar mengikuti suatu saham mungkin mempertimbangkan penundaan sepuluh
menit agar harga saham cukup tepat waktu, sedangkan seorang pedagang yang membutuhkan penawaran
harga secara real-time mungkin tidak mempertimbangkan sepuluh menit yang cukup tepat waktu.
Aspek lain yang terkadang dikaitkan dengan kualitas data adalah kesesuaian dengan spesifikasi
atau standar. Wang dkk. (1993) mendefinisikan kualitas data sebagai “kesesuaian dengan
persyaratan.” Untuk tujuan mengevaluasi kualitas data, mereka menggunakan “indikator kualitas
data.” Indikator-indikator ini didasarkan pada ukuran obyektif seperti sumber data, waktu pembuatan,
metode pengumpulan dan ukuran subyektif seperti tingkat kredibilitas suatu sumber yang ditugaskan
oleh peneliti. Di Inggris, misalnya, Departemen Kesehatan menggunakan jenis MIS untuk
mendefinisikan kualitas data sehubungan dengan kualitas data pasien medis dan layanan kesehatan
di Layanan Kesehatan Nasional (Departemen Kesehatan Inggris, 2004).
Lee dkk. (2002) mengusulkan metodologi penilaian dan benchmarking InfoQ, yang disebut
penilaian metodologi dan kualitas sistem informasi (AIMQ).
Fokus mereka adalah pada kegunaan data organisasi bagi penggunanya, khususnya data dari sistem
TI. Penulis mendefinisikan empat kategori InfoQ: intrinsik, kontekstual, representasional, dan
aksesibilitas. Sedangkan kategori intrinsik mengacu pada “informasi
Machine Translated by Google
[yang] memiliki kualitas tersendiri,” kategori kontekstual memperhitungkan tugas yang ada (dari sudut
pandang pengguna), dan dua kategori terakhir berkaitan dengan kualitas sistem informasi. Penggunaan
istilah “InfoQ” oleh Lee et al. menunjukkan bahwa mereka mempertimbangkan data dalam konteks
pengguna, bukan secara terpisah (seperti yang tersirat dalam istilah kualitas data). Metodologi AIMQ
digunakan untuk menilai dan membuat tolok ukur penggunaan data organisasi.
Pendekatan utama InfoQ yang diterapkan dalam konteks MIS adalah penerapan analisis resolusi
entitas (ER). ER adalah proses menentukan apakah dua referensi ke objek dunia nyata mengacu pada
objek yang sama atau dua objek berbeda. Tingkat kelengkapan, akurasi, ketepatan waktu, kepercayaan,
konsistensi, aksesibilitas dan aspek lain dari data referensi dapat mempengaruhi pengoperasian proses
ER dan menghasilkan hasil yang lebih baik atau lebih buruk. Inilah salah satu alasan mengapa ER
sangat erat kaitannya dengan bidang MIS IQ, sebuah disiplin baru yang berkaitan dengan
memaksimalkan nilai aset informasi organisasi dan memastikan bahwa produk informasi yang dihasilkan
memenuhi harapan pelanggan yang menggunakannya. Meningkatkan kualitas sumber referensi secara
dramatis akan meningkatkan hasil proses ER, dan sebaliknya, mengintegrasikan referensi melalui ER
akan meningkatkan kualitas informasi secara keseluruhan dalam sistem. Sistem ER umumnya
menggunakan empat teknik dasar untuk menentukan bahwa referensi setara dan harus dihubungkan:
pencocokan langsung, analisis asosiasi, kesetaraan yang dinyatakan, dan kesetaraan transitif. Untuk
pengenalan ER, lihat Talburt (2011). Untuk studi kasus perangkat lunak sumber terbuka yang melakukan
analisis ER, dalam konteks sistem layanan kesehatan, lihat Zhou dkk. (2010).
Buku-buku MIS yang ada saat ini masih kurang dalam hal peran pengguna akhir dan
terlebih lagi dalam hal penyebar informasi. Teks-teks tersebut terlalu sarat dengan
teknologi, dengan cakupan yang terlalu disederhanakan mengenai dasar-dasar data,
informasi, dan khususnya peran informasi dalam bisnis.
Perlakuan InfoQ dalam buku ini mengatasi kekosongan ini dan, dalam beberapa hal, kaitannya
dengan komunitas kualitas data seperti Asosiasi Internasional untuk Informasi dan Kualitas Data (IAIDQ).
Dalam konteks yang lebih luas, teknologi dapat meningkatkan kualitas data. Misalnya, dalam entri
data manual ke sistem otomatis, validasi data otomatis dapat memberikan umpan balik langsung
sehingga kesalahan entri data dapat diperbaiki saat itu juga.
Kemajuan teknologi dalam pencatatan elektronik, pemindai, RFID, entri elektronik, transfer data
elektronik, teknologi verifikasi data dan penyimpanan data yang kuat, serta instrumen pengukuran yang
lebih canggih, telah menghasilkan banyak data yang “lebih bersih” dari waktu ke waktu (Redman, 2007).
Masalah kualitas data ini berfokus pada U(X|g), yang berbeda dari InfoQ dengan mengecualikan
komponen analisis data f. Selain itu, referensi MIS terhadap utilitas biasanya bersifat kualitatif dan bukan
kuantitatif. Ia menganggap utilitas sebagai nilai informasi yang diberikan kepada penerima dalam
konteks penggunaan yang dimaksudkan. Di InfoQ, utilitas U(X|g) dipertimbangkan dengan perspektif
kuantitatif dan terdiri dari ukuran statistik seperti kesalahan prediksi atau bias estimasi.
Machine Translated by Google
Organisasi-organisasi tersebut telah menciptakan kerangka kerja untuk menilai kualitas data
statistik. Dana Moneter Internasional (IMF) dan Organisasi untuk Kerja Sama dan Pembangunan
Ekonomi (OECD) masing-masing mengembangkan kerangka penilaian.
Aspek yang mereka nilai adalah relevansi, akurasi, ketepatan waktu, aksesibilitas, interpretabilitas,
koherensi dan kredibilitas. Dimensi-dimensi yang berbeda ini masing-masing dinilai secara terpisah
—baik secara subyektif maupun obyektif. Misalnya, definisi OECD tentang relevansi data statistik
mengacu pada penilaian kualitatif terhadap nilai yang disumbangkan oleh data. Aspek lain lebih
bersifat teknis. Misalnya saja aksesibilitas
mengacu pada seberapa mudah data dapat ditemukan dan diakses. Lihat Bab 3 untuk rincian lebih
lanjut mengenai dimensi kualitas data yang digunakan oleh pemerintah dan lembaga internasional.
Dalam konteks kualitas survei, lembaga resmi seperti Eurostat, Pusat Statistik Sains dan
Teknik Nasional, dan Statistik Kanada telah menciptakan dimensi kualitas untuk mengevaluasi
kualitas survei dengan tujuan memperoleh “data survei yang akurat” yang diukur dengan U setara
dengan mean square error (MSE) (lihat Biemer dan Lyberg (2003)). Lembaga-lembaga tersebut
juga telah menetapkan serangkaian dimensi kualitas data untuk tujuan mengevaluasi kualitas data.
Misalnya, dimensi kualitas Eurostat adalah relevansi konsep statistik, keakuratan perkiraan,
ketepatan waktu, dan ketepatan waktu dalam menyebarkan hasil, aksesibilitas, dan kejelasan
informasi, keterbandingan, koherensi, dan kelengkapan (lihat www.nsf.gov/statistics untuk National
pedoman dan standar Pusat Statistik Sains dan Teknik).
mencakup bias pengambilan sampel dan nilai yang hilang, yang bukan sekadar kesalahan teknis: definisi
atau dampaknya bergantung pada tujuan penelitian g. Bias pengambilan sampel, misalnya, bersifat relatif
terhadap populasi yang diteliti: sampel yang sama dapat menjadi bias untuk satu tujuan dan tidak memihak
untuk tujuan lainnya. Nilai yang hilang dapat menambah ketidakpastian dalam mencapai satu tujuan, namun
mengurangi ketidakpastian dalam mencapai tujuan lainnya (misalnya, informasi yang hilang dalam laporan
keuangan dapat merugikan dalam menilai kinerja keuangan, namun berguna untuk mendeteksi perilaku
curang).
Klasifikasi masalah kualitas data lainnya juga dimungkinkan. Schouten (2013) membedakan antara
kualitas data dan InfoQ, dengan mengatakan “kualitas data adalah tentang data yang ingin dimiliki dan InfoQ
adalah tentang data yang ingin dimiliki.”
Menurutnya, berbagai metode digunakan untuk meningkatkan kualitas data dan InfoQ.
“Pemrosesan, pengeditan, imputasi, dan pembobotan data [bertujuan] untuk mengurangi kesenjangan antara
data yang ada dan data yang ingin dimiliki. Metode statistik ini bertujuan untuk meningkatkan kualitas …
data. Analisis data adalah tentang menjembatani kesenjangan antara data yang diinginkan dan yang
diinginkan.”
Di bagian selanjutnya dalam buku ini, kami menggunakan klasifikasi “kualitas data” dan “InfoQ”
berdasarkan apakah masalahnya berkaitan dengan data saja (X) atau setidaknya pada satu komponen InfoQ
lagi.
Kualitas analisis mengacu pada kecukupan analisis empiris sehubungan dengan data dan tujuan yang
ada. Kualitas analisis mencerminkan kecukupan pemodelan sehubungan dengan data dan untuk menjawab
pertanyaan yang menarik. Godfrey (2008) menggambarkan kualitas analisis yang rendah sebagai “model
yang buruk dan teknik analisis yang buruk, atau bahkan menganalisis data dengan cara yang sepenuhnya
salah.” Kami menambahkan kemampuan pemangku kepentingan untuk menggunakan hasil analisis. Mari
kita perhatikan beberapa aspek kualitas analisis, sehingga menjadi jelas perbedaannya dengan InfoQ dan
hubungan keduanya.
2.3.1 Kebenaran
Pendidikan statistika serta pendidikan di bidang terkait lainnya seperti ekonometrik dan penambangan data
ditujukan untuk mengajarkan analisis data berkualitas tinggi. Teknik pemeriksaan kualitas analisis meliputi
metode grafis dan kuantitatif seperti analisis residu dan validasi silang serta evaluasi kualitatif seperti
pertimbangan endogenitas (reverse causation) dalam studi kausal. Kualitas analisis bergantung pada keahlian
analis dan metode empiris serta perangkat lunak yang tersedia pada saat analisis.
Kualitas analisis sangat bergantung pada tujuan yang ingin dicapai. Penggabungan analisis dan tujuan
memungkinkan pandangan yang lebih luas tentang kecukupan analisis, karena pendekatan “buku teks”
sering kali mempertimbangkan kesesuaian metode untuk digunakan dengan tipe data tertentu untuk tujuan tertentu.
Machine Translated by Google
sasaran. Namun penggunaannya mungkin berada di luar cakupan tersebut dan tetap berguna. Sebagai
contoh, penggunaan model regresi linier dalam buku teks memerlukan data yang mengikuti asumsi observasi
independen. Namun, penggunaan regresi linier untuk peramalan deret waktu, dimana observasi biasanya
berkorelasi otomatis, banyak digunakan dalam praktik karena memenuhi tujuan peramalan yang cukup
akurat. Pengklasifikasi Naive Bayes dibuat berdasarkan asumsi independensi bersyarat dari prediktor,
namun meskipun asumsi tersebut dilanggar di sebagian besar aplikasi, Naive Bayes memberikan kinerja
klasifikasi yang sangat baik.
Kualitas analisis tidak hanya mengacu pada model statistik yang digunakan tetapi juga pada
metodologinya. Misalnya, membandingkan model prediktif dengan tolok ukur merupakan langkah
metodologis yang diperlukan.
Bidang statistik menawarkan banyak ukuran utilitas, tes, dan grafik yang bertujuan untuk
mengukur kinerja model statistik. Metode berkisar dari klasik hingga Bayesian; fungsi kerugian
berkisar dari metrik jarak L1 hingga jarak L2 ; metrik didasarkan pada data dalam sampel atau di
luar sampel. Hal ini mencakup pengukuran kesesuaian (misalnya, analisis residu) dan pengujian
serta pengukuran kekuatan hubungan (misalnya, nilai R2 dan p dalam model regresi).
Ukuran kinerja prediktif mencakup metrik yang dikenakan sanksi seperti kriteria informasi
Akaike (AIC) dan kriteria informasi Bayes (BIC) dan kriteria informasi keluar.
ukuran sampel seperti root mean square error (RMSE), mean absolute perception error (MAPE)
dan agregasi kesalahan prediksi lainnya. Seseorang dapat menggunakan fungsi biaya simetris
pada kesalahan prediksi atau fungsi biaya asimetris yang akan memberikan sanksi lebih besar
terhadap prediksi yang berlebihan atau terlalu rendah. Bahkan dalam pemodelan prediktif, terdapat
berbagai metrik tergantung pada tugas prediksi yang tepat dan tipe data: untuk klasifikasi
(memprediksi hasil kategorikal) seseorang dapat menggunakan matriks klasifikasi, kesalahan
keseluruhan, ukuran sensitivitas dan spesifisitas, perolehan dan presisi, penerima kurva operasi
(ROC), dan metrik area di bawah kurva (AUC). Untuk memprediksi catatan numerik, terdapat
berbagai agregasi kesalahan prediksi yang mempertimbangkan arah dan besarnya kesalahan
secara berbeda. Untuk menentukan peringkat rekor baru, diagram peningkatan adalah yang paling
umum.
Sebagai catatan tambahan, Akaike awalnya menyebut pendekatannya sebagai “prinsip
maksimalisasi entropi”, karena pendekatan ini didasarkan pada konsep entropi dalam teori informasi.
Meminimalkan AIC dalam model statistik setara dengan memaksimalkan entropi dalam sistem
termodinamika; dengan kata lain, pendekatan teori informasi dalam statistik pada dasarnya
menerapkan hukum kedua termodinamika. Oleh karena itu, AIC menggeneralisasi karya Boltzmann
tentang entropi ke pemilihan model dalam konteks regresi umum (GR). Kita kembali ke dimensi
penting generalisasi dalam konteks dimensi InfoQ di bab berikutnya.
Dengan begitu banyak potensi ukuran kinerja, kualitas utilitas sangat besar
tergantung pada kemampuan dan pengetahuan peneliti untuk memilih metrik yang memadai.
Teori keputusan memberikan kerangka rasional untuk memilih antara tindakan alternatif ketika
konsekuensi yang dihasilkan dari pilihan ini tidak diketahui secara sempurna. Dalam kata pengantar
Lindley untuk volume yang diedit oleh Di Bacco dkk. (2004), ia menjawab pertanyaan apa yang
dimaksud dengan statistik dengan mengacu pada orang-orang yang ia anggap sebagai bapak
pendiri: Harold Jeffreys, Bruno de Finetti, Frank Ramsey, dan Jimmie Savage:
Sehubungan dengan fokus hanya pada utilitas statistik, kita dapat mengutip lagi Lindley (2004)
yang mengkritik publikasi saat ini yang menggunakan metode Bayesian karena mengabaikan
mempertimbangkan utilitas. Dia menulis:
Jika saat ini kita melihat makalah statistik biasa yang menggunakan metode Bayesian,
probabilitas akan banyak digunakan, namun utilitas, atau utilitas yang diharapkan
maksimum (MEU), jarang disebutkan… Saat saya melihat statistik saat ini, saya Saya
heran dengan kegagalan total dalam menggunakan utilitas…. Kemungkinannya ada
tetapi kegunaannya tidak ada. Kegagalan ini menjadi kritik utama saya terhadap statistik
saat ini; kita mengabaikan tugas kita di tengah jalan, membuat kesimpulan tetapi menolak
menjelaskan kepada orang lain bagaimana bertindak berdasarkan kesimpulan tersebut.
Kurangnya makalah yang memberikan diskusi mengenai utilitas adalah kelalaian lain
dari publikasi kami.
Memilih ukuran yang tepat bergantung pada identifikasi yang benar dari kegunaan penelitian yang
mendasarinya serta penerjemahan yang tepat dari kegunaan penelitian ke dalam metrik empiris.
Hal ini serupa dengan kasus definisi tujuan dan kualitasnya.
Ukuran kinerja harus bergantung pada tujuan yang ingin dicapai, sifat data, dan metode analisis.
Misalnya, kesalahan umum di berbagai bidang adalah penggunaan statistik R2 untuk mengukur akurasi
prediksi (lihat Shmueli, 2010; Shmueli dan Koppius, 2011). Ingat contoh kita sebelumnya tentang
seorang manajer pemasaran yang memberi tahu analis bahwa tujuan analisisnya adalah untuk
“memahami respons pelanggan terhadap iklan,” sementara model tersebut secara efektif digunakan
untuk menargetkan pelanggan baru dengan iklan. Jika analis menggunakan (secara salah) jalur
pemodelan penjelas, maka pilihan ukuran kinerja penjelas mereka, seperti R2 (“Seberapa baik model
saya menjelaskan pengaruh informasi pelanggan terhadap respons iklan mereka?”), akan menurunkan
kualitas utilitas . Utilitas berkualitas rendah ini biasanya ditemukan pada tahap penerapan model, saat
kekuatan prediktif model penjelas akan diamati untuk pertama kalinya.
Kesalahan lain yang menurunkan kualitas utilitas adalah hanya mengandalkan nilai p untuk menguji
hipotesis dengan sampel yang sangat besar, sebuah praktik umum di beberapa bidang yang kini
menggunakan ratusan ribu atau bahkan jutaan observasi. Karena nilai p merupakan fungsi dari ukuran
sampel, dengan sampel yang sangat besar seseorang dapat memperoleh nilai p yang kecil (sangat
signifikan secara statistik) bahkan untuk efek yang sangat kecil sekalipun. Oleh karena itu, kita harus
mengkaji besarnya dampak dan mempertimbangkan relevansi praktisnya (lihat Lin dkk., 2013).
Dengan menjamurnya kontes penambangan data, yang diselenggarakan di platform publik seperti
kaggle.com, terdapat penekanan kuat pada pencarian model yang mengoptimalkan ukuran kinerja
tertentu, seperti RMSE atau peningkatan. Namun, dalam studi kehidupan nyata, jarang sekali suatu
model dipilih berdasarkan ukuran utilitas tunggal.
Sebaliknya, analis mempertimbangkan beberapa ukuran dan mengkaji kegunaan model berdasarkan
berbagai pertimbangan praktis, seperti kecukupan penggunaan oleh pemangku kepentingan, biaya
penerapan, dan ketahanan dalam berbagai kondisi yang mungkin terjadi. Demikian pula, dalam
penelitian akademis, pemilihan model tidak didasarkan pada optimalisasi satu ukuran utilitas, melainkan
pada kriteria tambahan seperti kehematan dan kekokohan, dan yang terpenting, pada dukungan
terhadap penemuan-penemuan yang bermakna.
Machine Translated by Google
Oleh karena itu, kualitas utilitas berdampak langsung pada InfoQ. Seperti halnya kualitas
tujuan, kerangka InfoQ meningkatkan kesadaran terhadap hubungan antara domain dan
dunia empiris, sehingga membantu menghindari keterputusan antara analisis dan kenyataan,
seperti yang terjadi dalam kompetisi data mining.
2.5 Ringkasan
Bab ini meletakkan dasar untuk sisa buku ini dengan memeriksa masing-masing dari empat
komponen InfoQ (tujuan, data, analisis, dan kegunaan) dari perspektif kualitas. Kami
mempertimbangkan kualitas intrinsik dari komponen-komponen ini, sehingga membedakan
kualitas komponen tunggal dari gagasan InfoQ secara keseluruhan. Bab berikutnya
memperkenalkan delapan dimensi InfoQ yang digunakan untuk mendekonstruksi konsep
umum InfoQ. InfoQ menggabungkan empat komponen yang dibahas di sini dengan delapan
dimensi yang dibahas dalam Bab 3. Contoh dalam bab ini dan bab lainnya menunjukkan
bagaimana InfoQ menggabungkan pengumpulan dan pengorganisasian data dengan analisis
dan operasionalisasi data, yang dirancang untuk mencapai tujuan spesifik yang mencerminkan
fungsi utilitas tertentu. Dalam arti tertentu, InfoQ memperluas domain teori keputusan dengan
mempertimbangkan implikasi modern dari ketersediaan data, analisis canggih dan dapat
diakses, serta sistem berbasis data dengan tugas operasional. Setelah Bab 3 kami
mencurahkan bab-bab khusus untuk tahap pengumpulan data dan desain studi serta tahap
pengumpulan pascadata, dari perspektif InfoQ. Contoh-contoh dalam berbagai penerapan disediakan di
Referensi
Berk, RA, Brown, L., George, E., Pitkin, E., Traskin, M., Zhang, K. dan Zhao, L. (2013)
Apa yang Dapat Anda Pelajari dari Model Kausal yang Salah, dalam Buku Pegangan Analisis Kausal
untuk Penelitian Sosial, Morgan, SL (editor), Springer, Dordrecht.
Biemer, P. dan Lyberg, L. (2003) Pengantar Kualitas Survei. John Wiley & Sons, Inc.,
Hoboken, NJ.
Box, GEP (1979) Kekokohan dalam Strategi Pembangunan Model Ilmiah, dalam Kekokohan dalam
Statistik, Launer, RL dan Wilkinson, GN (editor), Academic Press, New York, hlm.201–236.
Dardenne, A., van Lamsweerde, A. dan Fickas, S. (1993) akuisisi persyaratan yang diarahkan pada tujuan.
Ilmu Pemrograman Komputer, 20, hlm.3–50.
Di Bacco, N., d'Amore, G. dan Scalfari, F. (2004) Studi Statistik Bayesian Terapan dalam
Biologi dan Kedokteran. Springer, Boston, MA.
Gackowski, Z. (2005) Sistem informasi dalam lingkungan bisnis: pandangan yang berfokus pada tujuan.
Menginformasikan Jurnal Sains, 8, hlm.101–122.
Godfrey, AB (2008) Memperhatikan kualitas data. Majalah Six Sigma Forum, 8, hlm.5–6.
Hand, DJ (1994) Mendekonstruksi pertanyaan statistik (dengan diskusi). Jurnal Kerajaan
Masyarakat Statistik, Seri A, 157(3), hlm.317–356.
Hand, DJ (2008) Statistik: Pengantar yang Sangat Singkat. Pers Universitas Oxford, Oxford.
Jay, ES dan Perkins, DN (1997) Kompas Kreativitas: Tinjauan Penemuan Masalah, dalam Buku Panduan
Penelitian Kreativitas, vol. 1, Runco, MA (editor), Hampton, Cresskill, NJ, hlm.257–293.
Machine Translated by Google
Kenett, RS dan Shmueli, G. (2013) Tentang kualitas informasi. Jurnal Statistik Kerajaan
Masyarakat, Seri A, 176(4), hlm.1–25.
Kenett, R., Zacks, S. dan Amberti, D. (2014) Statistik Industri Modern: Dengan Aplikasi di R, MINITAB
dan JMP, edisi ke-2. John Wiley & Sons, Chichester, Sussex Barat, Inggris.
Kimball, AW (1957) Kesalahan jenis ketiga dalam konsultasi statistik. Jurnal Amerika
Asosiasi Statistik, 52, 133–142.
Lee, Y., Strong, D., Kahn, B. dan Wang, R. (2002) AIMQ: metodologi penilaian kualitas informasi.
Informasi & Manajemen, 40, hlm.133–146.
Lin, M., Lucas, H. dan Shmueli, G. (2013) Terlalu besar untuk gagal: sampel besar dan masalah nilai
p. Penelitian Sistem Informasi, 24(4), hlm.906–917.
Lindley, DV (2004) Beberapa Refleksi Keadaan Statistik Saat Ini, dalam Studi Statistika Bayesian
Terapan dalam Biologi dan Kedokteran, di Bacco, M., d'Amore, G. dan Scalfari, F. (editor), Springer,
Boston, MA.
Mackay, RJ dan Oldford, RW (2000) Metode ilmiah, metode statistik, dan kecepatan cahaya. Ilmu
Statistik, 15(3), hlm.254–278.
Mallows, C. (1998) Masalah ke-nol. Ahli Statistik Amerika, 52, hlm.1–9.
Montgomery, DC (1980) Desain ekonomi dari diagram kendali: tinjauan dan literatur
survei. Jurnal Teknologi Kualitas, 12, hlm.75–87.
Redman, T. (2007) Statistik dalam Kualitas Data dan Informasi, dalam Ensiklopedia Statistik dalam
Kualitas dan Keandalan, Ruggeri, F., Kenett, RS dan Faltin, F. (pemimpin redaksi), John Wiley &
Sons, Ltd, Chichester , Inggris.
Regev, G. dan Wegmann, W. (2005) Dari Mana Sasaran Berasal: Prinsip-Prinsip yang Mendasari
Rekayasa Persyaratan Berorientasi Sasaran. Prosiding Konferensi Rekayasa Persyaratan
Internasional IEEE ke-13 (RE'05), Paris, Prancis.
Schouten, B. (2013) Komentar tentang 'kualitas informasi'. Jurnal Statistik Kerajaan
Masyarakat, Seri A, 176(4), hlm.27–29.
Serel, DA (2009) Desain ekonomi diagram kendali EWMA berdasarkan fungsi kerugian.
Pemodelan Matematika dan Komputer, 49(3–4), hlm.745–759.
Shmueli, G. (2010) Untuk menjelaskan atau memprediksi? Ilmu Statistik, 25(3), hlm.289–310.
Shmueli, G. dan Koppius, OR (2011) Analisis prediktif dalam penelitian sistem informasi.
MIS Triwulanan, 35(3), hlm.553–572.
Talburt, JR (2011) Resolusi Entitas dan Kualitas Informasi. Morgan Kaufmann, Burlington, VT.
Trafimow, D. dan Marks, M. (2015) Editorial. Psikologi Sosial Dasar dan Terapan, 37(1), hlm.1–2.
Tukey, JW (1962) Masa depan analisis data. Sejarah Statistik Matematika, 33( 1), hlm.1–67.
Departemen Kesehatan Inggris (2004) Strategi Penjaminan Kualitas Informasi NHS – Draf Konsultasi.
Departemen Kesehatan, London. http://webarchive.nationalarchives.gov.
Inggris/20130107105354/http://www.dh.gov.uk/prod_consum_dh/groups/dh_digitalassets/@dh/
@en/documents/digitalasset/dh_4087588.pdf (diakses 2 Mei 2016).
Wang, RY, Kon, HB dan Madnick, SE (1993) Analisis Persyaratan Kualitas Data dan
Pemodelan. Konferensi Internasional ke-9 tentang Rekayasa Data, Wina.
Zhou, Y., Talburt, J., Su, Y. dan Yin, L. (2010) OYSTER: Alat Resolusi Entitas dalam Pertukaran
Informasi Kesehatan. Prosiding Konferensi Internasional Kelima tentang Kerja Sama dan Promosi
Sumber Daya Informasi dalam Sains dan Teknologi (COINFO10), hlm.356–362.
Machine Translated by Google
Dimensi kualitas
informasi dan penilaian InfoQ
3.1 Pendahuluan
Kualitas informasi (InfoQ) adalah abstraksi atau konstruksi holistik. Untuk dapat menilai konstruksi
seperti itu dalam praktiknya, kami mengoperasionalkannya ke dalam variabel-variabel yang dapat diukur.
Seperti InfoQ, kualitas data juga merupakan konstruksi yang memerlukan operasionalisasi. Persoalan
penilaian kualitas data telah dibahas dan diterapkan di beberapa bidang dan oleh beberapa organisasi
internasional. Kami memulai bab ini dengan melihat berbagai pendekatan dalam mengoperasionalkan
kualitas data. Kami kemudian mengambil, di Bagian 3.2, pendekatan serupa untuk mengoperasionalkan
InfoQ. Bagian 3.3 membahas tentang metode penilaian dimensi InfoQ dan Bagian 3.4 memberikan
contoh penilaian berbasis peringkat InfoQ. Contoh mendalam tambahan diberikan di Bagian II.
1. Kekinian mengacu pada durasi antara waktu pengumpulan data dan waktu penelitian dilakukan.
© 2017 John Wiley & Sons, Ltd. Diterbitkan 2017 oleh John Wiley & Sons, Ltd.
Situs web pendamping: www.wiley.com/go/information_quality
Machine Translated by Google
4. Relevansi mengacu pada relevansi data dengan tujuan analisis: apakah data memuat variabel
yang diperlukan dalam bentuk yang benar dan apakah data tersebut diambil dari populasi yang
diminati.
Kaynak dan Herbig (2014) menyebutkan empat kriteria yang perlu dipertimbangkan untuk kualitas
data dalam riset pemasaran lintas budaya:
4. Ketersediaan
Keempat kriteria Patzer dan Kaynak dan Herbig mempertimbangkan data (X) dan tujuan (g), namun
tidak mempertimbangkan metode analisis data (f ) dan utilitas (U). Secara khusus, keterkinian, akurasi,
keandalan, ketersediaan, dan komparabilitas merupakan karakteristik kumpulan data dan berhubungan
secara implisit dengan tujuan analisis, sedangkan hanya relevansi yang berhubungan langsung dengan
data dan tujuan analisis.
Boslaugh (2007) mempertimbangkan tiga pertanyaan utama untuk membantu menilai kualitas data
sekunder (data yang dikumpulkan untuk tujuan selain penelitian yang ada):
3. Prosedur pembersihan dan/atau pengodean ulang apa yang telah diterapkan pada data?
Pertanyaan-pertanyaan ini berguna pada tahap pra-penelitian, ketika seseorang harus mengevaluasi
kegunaan kumpulan data untuk penelitian yang sedang dilakukan. Konsep dalam ketiga pertanyaan
tersebut dapat diringkas menjadi tujuan pengumpulan, tipe data, umur data, instrumen dan proses
pengumpulan data, dan prapemrosesan data. Kriteria tersebut dapat dikelompokkan ke dalam kriteria
“kualitas sumber” dan “kualitas data” (Kaynak dan Herbig, 2014). Jelas sekali, kualitas sumber
mempengaruhi kualitas data:
Hampir tidak mungkin untuk mengetahui terlalu banyak tentang proses pengumpulan
data karena hal ini dapat mempengaruhi kualitas data dalam banyak hal, beberapa di
antaranya tidak terlihat jelas.
Machine Translated by Google
Boslaugh (2007, hal. 5) lebih lanjut mempertimbangkan ketersediaan, kelengkapan, dan format data:
Kumpulan data sekunder harus diperiksa dengan hati-hati untuk memastikan bahwa data tersebut
mencakup data yang diperlukan, bahwa data tersebut didefinisikan dan diberi kode sedemikian
rupa sehingga memungkinkan dilakukannya analisis yang diinginkan, dan bahwa peneliti akan
diizinkan untuk mengakses data yang diperlukan.
Kami sekali lagi mencatat bahwa pertanyaan dan kriteria yang disebutkan berhubungan dengan data dan
tujuan, namun tidak dengan metode atau kegunaan analisis; namun definisi InfoQ memerlukan keempat
komponen tersebut.
Seperti disebutkan dalam Bab 2, Lee dkk. (2002) mengusulkan metodologi penilaian dan benchmarking
InfoQ sistem TI yang disebut AIMQ. Mereka menyusun 15 dimensi dari makalah akademis di MIS: aksesibilitas,
jumlah yang sesuai, dapat dipercaya, kelengkapan, representasi ringkas, representasi konsisten, kemudahan
pengoperasian, bebas kesalahan, interpretasi, objektivitas, relevansi, reputasi, keamanan, ketepatan waktu, dan
pemahaman. Mereka kemudian mengelompokkan 15 dimensi tersebut ke dalam empat kategori: intrinsik,
kontekstual, representasional, dan aksesibilitas. Meskipun mereka menggunakan istilah IQ, namun berbeda
dengan InfoQ. Konsep IQ menunjukkan pertimbangan pengguna sistem TI (dan oleh karena itu beberapa
dimensinya mencakup relevansi, ketepatan waktu, dll.). Namun, IQ sama sekali tidak mempertimbangkan analisis
data. Untuk mengoperasionalkan empat kategori, Lee et al. (2002) mengembangkan kuesioner dengan delapan
item untuk masing-masing 15 dimensi. Instrumen ini kemudian digunakan untuk menilai sistem TI suatu organisasi
dan untuk membandingkannya dengan praktik terbaik dan organisasi lain.
Statistik Kanada, dan Organisasi untuk Kerjasama Ekonomi dan Pembangunan (OECD). OECD
mengoperasionalkan konstruksi ini dengan mendefinisikan tujuh dimensi penilaian kualitas (lihat bab 5
dalam Giovanni, 2008):
2. Akurasi— Sejauh mana data secara tepat memperkirakan atau menggambarkan kuantitas atau
karakteristik yang ingin diukur
3. Ketepatan waktu dan ketepatan waktu— Lamanya waktu yang berlalu antara ketersediaan data
kemampuan dan fenomena yang dijelaskan
6. Koherensi— Sejauh mana data terhubung secara logis dan saling menguntungkan
konsisten
7. Kredibilitas—Kepercayaan pengguna terhadap data berdasarkan persepsi mereka terhadap data tersebut
penghasil data
Badan Eurostat Komisi Eropa menggunakan tujuh dimensi untuk menilai kualitas data dari survei
(Ehling dan Körner, 2007):
1. Relevansi konsep statistik mengacu pada apakah semua statistik yang diperlukan telah dihasilkan
dan sejauh mana konsep yang digunakan (definisi, klasifikasi, dll.) mencerminkan kebutuhan
pengguna.
2. Keakuratan perkiraan menunjukkan kedekatan perhitungan atau perkiraan dengan nilai yang tepat
atau benar.
3. Ketepatan waktu dan ketepatan waktu dalam menyebarkan hasil—Ketepatan waktu informasi
mencerminkan jangka waktu antara ketersediaannya dan peristiwa atau fenomena yang dijelaskan;
Ketepatan waktu mengacu pada jeda waktu antara tanggal rilis data dan tanggal target kapan data
seharusnya dikirimkan.
4. Aksesibilitas dan kejelasan informasi —Aksesibilitas mengacu pada kondisi fisik di mana pengguna
dapat memperoleh data; kejelasan mengacu pada lingkungan informasi data (apakah data disertai
dengan metadata yang sesuai, ilustrasi seperti grafik dan peta, dll.).
5. Keterbandingan adalah sejauh mana perbedaan antar statistik disebabkan oleh perbedaan antara
nilai sebenarnya dari karakteristik statistik.
6. Koherensi statistik mengacu pada kecukupannya untuk dapat digabungkan secara andal dalam
berbagai cara dan untuk berbagai kegunaan.
jenis dan kualitas data dan informasi yang diperlukan untuk membuat keputusan lingkungan.
Program ini bertujuan untuk mengontrol dan meningkatkan kualitas data dalam hal presisi,
akurasi, keterwakilan, kelengkapan, dan komparabilitas (PARCC) pengukuran lingkungan
yang digunakan dalam studinya. Mereka mendefinisikan dimensi ini sebagai berikut:
1. Presisi adalah derajat kesesuaian antara pengukuran berulang terhadap sifat yang
sama pada sampel yang sama atau pada sampel terpisah yang dikumpulkan sedekat
mungkin dalam waktu dan tempat.
2. Akurasi adalah ukuran keyakinan suatu pengukuran. Semakin kecil perbedaan antara
pengukuran suatu parameter (estimasi) dan nilai “sebenarnya” atau nilai yang
diharapkan, semakin akurat pengukurannya.
4. Kelengkapan adalah ukuran jumlah sampel yang harus Anda ambil agar informasi
dapat digunakan, dibandingkan dengan jumlah sampel yang direncanakan semula.
5. Keterbandingan adalah sejauh mana data dari suatu penelitian dapat dibandingkan
secara langsung dengan data masa lalu dari proyek saat ini atau data dari penelitian lain.
Organisasi Kesehatan Dunia (WHO) menetapkan kerangka kualitas data yang disebut
Kerangka Jaringan Metrik Kesehatan (HMN, 2006), berdasarkan Kerangka Penilaian Kualitas
Data IMF (DQAF) dan Sistem Diseminasi Data Umum (GDDS) IMF. Kerangka kerja ini
menggunakan enam kriteria untuk menilai kualitas layanan kesehatan.
data dan indikator terkait yang dihasilkan dari sistem informasi kesehatan:
3. Konsistensi— Konsistensi internal data dalam kumpulan data serta konsistensi antara
kumpulan data dan dari waktu ke waktu serta sejauh mana revisi mengikuti jadwal
dan proses yang teratur, mapan, dan transparan
Contoh-contoh ini memberikan latar belakang penilaian InfoQ. Tujuan kami menyajikan dimensi
InfoQ adalah untuk mengusulkan struktur umum yang berlaku untuk analisis empiris apa pun dan
memperluas pendekatan kualitas data yang dijelaskan di atas.
Tingkat agregasi data juga harus dievaluasi relatif terhadap g. Misalnya, pertimbangkan pembelian
obat-obatan yang dijual bebas setiap hari di apotek besar. Jika tujuan analisis adalah memperkirakan
tingkat persediaan obat-obatan yang berbeda di masa depan, ketika penyetokan ulang dilakukan
setiap minggu, maka agregat mingguan lebih baik daripada agregat harian karena lebih sedikit
kesalahan pencatatan data dan gangguan. Namun, untuk deteksi dini wabah penyakit, dimana
peringatan yang dihasilkan satu atau dua hari lebih awal dapat memberikan perbedaan yang signifikan
dalam hal pengobatan, maka agregat mingguan memiliki kualitas yang rendah. Selain frekuensi data,
tingkat agregasi juga penting: untuk tujuan inventarisasi, informasi tingkat pengobatan diperlukan,
sedangkan untuk mendeteksi wabah penyakit, obat-obatan dapat dikelompokkan berdasarkan gejala,
dan rangkaian harian gabungan gejala akan lebih baik.
Contoh lain berkaitan dengan studi kasus lelang online di Bab 1. Di banyak platform lelang online,
waktu penawaran biasanya dicatat dalam hitungan detik dan harga dalam satuan mata uang. Di eBay,
misalnya, waktu penawaran dilaporkan pada tingkat detik (misalnya, 20 Agustus 2010, 03.14.07 Waktu
Musim Panas Pasifik) dan harga pada tingkat dolar dan sen (misalnya, $23,01). Model peramalan oleh
Wang et al. (2008) menggunakan waktu penawaran pada tingkat kedua dan jumlah penawaran tingkat
pusat hingga waktu prediksi untuk menghasilkan perkiraan harga dalam sen per detik selama lelang.
Sebaliknya, model peramalan oleh Ghani dan Simmons (2004) menghasilkan perkiraan harga akhir
dalam interval $5, hanya menggunakan informasi yang tersedia pada awal lelang.
Machine Translated by Google
Konsep subkelompok rasional yang digunakan dalam pengendalian proses statistik adalah kasus
khusus tingkat agregasi. Pengaturan subkelompok yang rasional menentukan tingkat variabilitas
proses dan jenis sinyal yang akan dideteksi. Jika subgrup rasional terdiri dari pengukuran dalam
jangka waktu singkat dalam suatu proses produksi, maka metode pengendalian proses statistik akan
menangkap sinyal-sinyal di luar kendali jangka pendek, sedangkan subgrup rasional yang tersebar
dalam periode yang lebih panjang akan mendukung deteksi sinyal-sinyal jangka panjang. tren dan
sinyal di luar kendali (lihat Kenett dkk., 2014). Dengan menggunakan notasi kami, f adalah metode
pengendalian proses statistik, X adalah datanya, g1 adalah sinyal jangka pendek, g2 adalah sinyal
jangka panjang, dan U adalah ukuran perilaku peringatan yang diinginkan.
Contoh dari literatur lelang online terkait dengan pengaruh “umpan balik penjual” terhadap harga
lelang. Penjual di eBay menerima peringkat umpan balik numerik dan komentar tekstual. Meskipun
sebagian besar studi penjelas mengenai faktor penentu harga menggunakan peringkat umpan balik
numerik sebagai kovariat, studi yang dilakukan oleh Pavlou dan Dimoka (2006) menunjukkan bahwa
penggunaan komentar tekstual sebagai kovariat dalam model harga menghasilkan nilai R2 (U) yang
jauh lebih tinggi dibandingkan dengan menggunakan peringkat numerik.
Nilai yang rusak dan hilang memerlukan penanganan dengan cara penghapusan, imputasi,
pemulihan data, atau metode lain, tergantung pada g. Nilai yang salah dapat dianggap sebagai nilai
yang hilang bila tujuannya adalah untuk memperkirakan parameter populasi, misalnya dalam survei di
mana responden dengan sengaja memasukkan jawaban yang salah. Namun, untuk beberapa tujuan,
nilai-nilai yang salah yang sengaja dikirimkan mungkin bersifat informatif dan oleh karena itu tidak
boleh dibuang atau “diperbaiki”.
atau X2 , dan hanya kombinasi keduanya yang menghasilkan InfoQ yang memadai. Dalam contoh
lelang Pavlou dan Dimoka (2006), komentar tekstual digunakan sebagai kovariat.
Metodologi analisis baru, seperti analisis data fungsional dan penambangan teks, ditujukan
untuk meningkatkan InfoQ tipe data baru dan kombinasinya. Misalnya, dalam studi peramalan lelang
online oleh Wang et al. (2008) (lihat Bab 1), analisis data fungsional digunakan untuk mengintegrasikan
urutan penawaran temporal dengan informasi lelang dan penjual cross-sectional. Kombinasi ini
memungkinkan perkiraan harga akhir yang lebih tepat dibandingkan dengan model yang hanya
didasarkan pada data cross-sectional. Pendekatan fungsional juga memungkinkan penghitungan
dampak berbagai faktor terhadap proses harga selama lelang (Bapna dkk., 2008b).
Aspek lain dari integrasi data adalah menghubungkan catatan antar database. Meskipun
algoritme tautan rekaman populer untuk meningkatkan InfoQ, penelitian yang menggunakan tautan
rekaman sering kali menggunakan teknik penyembunyian yang mengurangi risiko identifikasi dan
pelanggaran privasi dan kerahasiaan. Teknik seperti itu (misalnya, menghilangkan pengidentifikasi,
menambahkan noise, gangguan data, dan mikroagregasi) jelas dapat menurunkan InfoQ, bahkan
hingga membuat kumpulan data gabungan tidak berguna untuk tujuan yang ada. Solusi, seperti
“penambangan data yang menjaga privasi” dan “pengungkapan selektif,” ditujukan untuk
memanfaatkan kumpulan data yang terhubung dengan InfoQ tinggi tanpa mengorbankan privasi
(lihat, misalnya, Fienberg, 2006).
t1 t2 t3 t4 t5 t6
Gambar 3.1 Timeline penelitian, mulai dari pengumpulan data hingga penerapan studi.
Machine Translated by Google
tertarik untuk membandingkan pra-liburan dengan penawaran pasca-liburan atau perilaku penjualan
akan memerlukan pengumpulan selama periode yang mencakup waktu pra-liburan dan pasca-liburan.
Kesenjangan antara pengumpulan dan analisis data, yang sesuai dengan kriteria keterkinian di Bagian
3.1, biasanya lebih besar untuk data sekunder (data yang tidak dikumpulkan untuk tujuan penelitian).
Dalam pemodelan prediktif, dimana konteks prediksi harus sedekat mungkin dengan konteks
pengumpulan data, kelambatan temporal dapat menurunkan InfoQ secara signifikan. Misalnya,
kumpulan data lelang online iPad di eBay tahun 2010 mungkin memiliki InfoQ yang rendah untuk
meramalkan atau bahkan memperkirakan harga iPad saat ini karena cepatnya perubahan minat
terhadap gadget elektronik.
Aspek lain yang mempengaruhi relevansi temporal adalah ketepatan waktu analisis, atau
ketepatan waktu f(X|g). Raiffa (1970, p. 264) menyebut hal ini sebagai “kesalahan jenis keempat:
terlambat menyelesaikan masalah yang benar.” Ketepatan waktu analisis dipengaruhi oleh sifat X,
kompleksitas f , dan pada akhirnya oleh penerapan f pada X. Sifat kumpulan data (ukuran, ketersebaran,
dll.) dapat memengaruhi ketepatan waktu analisis dan pada gilirannya memengaruhi kegunaannya
untuk tujuan di tangan. Misalnya, menghitung statistik ringkasan untuk kumpulan data yang sangat
besar mungkin memerlukan waktu beberapa jam, sehingga InfoQ dianggap rendah untuk tujuan tugas
waktu nyata (g1 ) tetapi tinggi untuk analisis retrospektif (g2 ). Kompleksitas komputasi f
juga menentukan waktu analisis: Metode estimasi rantai Markov Monte Carlo dan algoritma prediksi
intensif komputasi membutuhkan waktu lebih lama daripada memperkirakan model linier atau
menghitung statistik ringkasan. Dalam contoh peramalan harga lelang online, pilihan model peramalan
linier diperlukan untuk menghasilkan perkiraan lelang yang sedang berlangsung secara tepat waktu.
Wang dkk. (2008) menggunakan smoothing splines untuk memperkirakan kurva harga untuk setiap
lelang dalam kumpulan data—informasi yang kemudian digunakan dalam model peramalan. Meskipun
spline penghalusan tidak selalu menghasilkan kurva yang monoton (seperti yang diharapkan dari kurva
harga dari awal hingga akhir lelang tipe eBay), metode ini jauh lebih cepat daripada memasang spline
penghalusan monoton, yang memang menghasilkan kurva monotonik. . Oleh karena itu, dalam hal ini
spline penghalusan menghasilkan InfoQ lebih tinggi daripada spline monoton untuk aplikasi peramalan
real-time. Relevansi temporal dan ketepatan waktu analisis jelas bergantung pada ketersediaan
perangkat lunak dan perangkat keras serta efisiensi peneliti atau tim analisis.
Oleh karena itu, endogenitas menghasilkan InfoQ yang rendah dalam studi penjelasan, namun tidak
harus dalam studi prediktif, karena menghilangkan variabel masukan dapat menghasilkan akurasi
prediksi yang lebih tinggi (lihat Shmueli, 2010). Yang juga terkait adalah uji kausalitas Granger (Granger, 1969)
Machine Translated by Google
bertujuan untuk menentukan apakah rangkaian waktu X yang tertinggal berisi informasi yang berguna untuk
memprediksi nilai masa depan dari rangkaian waktu Y lainnya dengan menggunakan model regresi.
Dalam konteks lelang online, tingkat InfoQ yang terkandung dalam “jumlah penawar” untuk model harga
lelang bergantung pada tujuan penelitian. Teori lelang klasik menetapkan jumlah penawar sebagai faktor
penting yang mempengaruhi harga: semakin banyak penawar, semakin tinggi harganya. Oleh karena itu,
data mengenai jumlah penawar berkualitas tinggi dalam model harga yang dapat menjelaskan. Namun,
untuk tujuan memperkirakan harga lelang online yang sedang berlangsung, di mana jumlah penawar tidak
diketahui hingga akhir lelang, InfoQ “jumlah penawar”, meskipun tersedia dalam kumpulan data retrospektif,
sangatlah rendah. Oleh karena itu, model peramalan Wang et al. (2008) yang dijelaskan dalam Bab 1
mengecualikan jumlah penawar atau jumlah penawaran dan sebagai gantinya menggunakan jumlah
kumulatif penawaran hingga waktu prediksi.
3.2.6 Generalisasi
Kegunaan f(X|g) bergantung pada kemampuan menggeneralisasi f pada populasi yang sesuai.
Dua jenis generalisasi adalah generalisasi statistik dan ilmiah. Generalisasi statistik mengacu pada
kesimpulan dari sampel ke populasi target. Generalisasi ilmiah mengacu pada penerapan model berdasarkan
populasi target tertentu ke populasi lain. Hal ini dapat berarti menggeneralisasi pola estimasi populasi atau
memodelkan f ke populasi lain atau menerapkan estimasi f dari satu populasi untuk memprediksi pengamatan
individu pada populasi lain.
Jenis generalisasi lainnya, dalam konteks pengujian kemampuan, adalah konsep objektivitas spesifik
(Rasch, 1977). Objektivitas khusus dicapai jika hasil pertanyaan dalam kuesioner yang digunakan untuk
membandingkan tingkat siswa tidak bergantung pada pertanyaan spesifik dan siswa lainnya. Dengan kata
lain, tujuannya adalah untuk menggeneralisasi data siswa tertentu yang menjawab serangkaian pertanyaan
ke populasi hasilnya, terlepas dari responden tertentu atau pertanyaan tertentu.
Jenis kemampuan generalisasi yang diperlukan mempengaruhi pilihan f dan U. Misalnya, metode
berbasis data lebih rentan terhadap overfitting, yang bertentangan dengan kemampuan generalisasi ilmiah.
Generalisasi statistik biasanya dievaluasi dengan menggunakan ukuran
Machine Translated by Google
bias pengambilan sampel dan kesesuaian. Sebaliknya, kemampuan generalisasi ilmiah untuk
memprediksi observasi baru biasanya dievaluasi berdasarkan keakuratan prediksi kumpulan
ketidaksepakatan dari populasi yang akan diprediksi, untuk melindungi dari overfitting.
Studi lelang online dari Bab 1 menggambarkan tipe generalisasi yang berbeda. Studi “pengaruh
harga cadangan terhadap harga akhir” (Katkar dan Reiley, 2006) berkaitan dengan generalisasi
statistik. Katkar dan Reiley (2006) merancang eksperimen sedemikian rupa sehingga menghasilkan
sampel yang representatif. Fokus mereka adalah pada kesalahan standar dan signifikansi statistik.
Studi peramalan oleh Wang et al. (2008) berkaitan dengan generalisasi terhadap lelang individual
baru. Mereka mengevaluasi keakuratan prediksi pada set ketidaksepakatan. Studi ketiga tentang
“surplus konsumen di eBay” berkaitan dengan generalisasi statistik dari sampel ke semua lelang
eBay pada tahun 2003. Karena sampel tidak diambil secara acak dari populasi, Bapna dkk. (2008a)
melakukan analisis khusus, membandingkan sampel mereka dengan sampel yang diambil secara
acak (lihat lampiran B dalam Bapna dkk., 2008a).
3.2.7 Operasionalisasi
Dua jenis operasionalisasi hasil analisis dipertimbangkan: operasionalisasi konstruk dan
operasionalisasi tindakan.
Konstruk adalah abstraksi yang menggambarkan suatu fenomena yang menjadi perhatian teoretis.
Data terukur adalah operasionalisasi konstruksi yang mendasarinya. Misalnya, stres psikologis
dapat diukur melalui kuesioner atau pengukuran fisiologis, seperti kadar kortisol dalam air liur
(Kirschbaum dan Hellhammer, 1989), dan kesejahteraan ekonomi dapat diukur melalui pendapatan
atau tingkat pengangguran. Hubungan antara konstruk yang mendasari ÿ dan operasionalisasinya
X = ÿ(ÿ) dapat bervariasi, dan levelnya relatif terhadap g merupakan aspek penting lainnya dari
InfoQ. Peran operasionalisasi konstruk bergantung pada g(X=ÿ(ÿ|g)) dan terutama pada apakah
tujuannya bersifat penjelas, prediktif, atau deskriptif. Dalam model penjelas, berdasarkan teori
kausal yang mendasarinya, beberapa operasionalisasi mungkin dapat diterima untuk mewakili
konstruksi yang diinginkan. Selama X diasumsikan mengukur ÿ, maka variabel tersebut dianggap
memadai. Dengan menggunakan contoh kita sebelumnya pada teks sebelumnya, baik jawaban
kuesioner maupun pengukuran fisiologis dapat diterima untuk mengukur stres psikologis.
Sebaliknya, dalam tugas prediktif, yang tujuannya adalah menciptakan prediksi yang cukup akurat
terhadap variabel terukur tertentu, pilihan variabel yang dioperasionalkan sangatlah penting.
Memprediksi stres psikologis seperti yang dilaporkan dalam kuesioner (X1 ) berbeda dengan
memprediksi tingkat ukuran fisiologis (X2 ). Oleh karena itu, InfoQ dalam studi prediktif lebih
bergantung pada kualitas X dan stabilitasnya sepanjang periode pembuatan dan penerapan
model, sedangkan dalam studi penjelasan InfoQ lebih mengandalkan kecukupan X untuk mengukur
ÿ.
Kembali ke konteks lelang online, studi surplus konsumen bergantung pada jumlah penawaran
yang dapat diobservasi, yang dianggap mencerminkan konstruksi “kesediaan untuk membayar”
yang mendasari penawar. Konstruk yang sama dioperasionalkan secara berbeda dalam jenis
penelitian lainnya. Sebaliknya, dalam peramalan harga mempelajari variabel terukur sebesar
Machine Translated by Google
bunga adalah harga lelang, yang selalu didefinisikan dengan cara yang sama. Contohnya
adalah penelitian McShane dan Wyner (2011) dalam konteks perubahan iklim, yang
menunjukkan bahwa untuk tujuan memprediksi suhu, “kovariat alami” yang berbasis teori lebih
rendah daripada “proksi semu” yang merupakan perkiraan dimensi lebih rendah dari kovariat
alami. Tugas deskriptif lebih mirip dengan tugas prediktif dalam arti fokus pada tingkat yang
dapat diamati. Dalam studi deskriptif, tujuannya adalah untuk mengungkap sinyal dalam
kumpulan data (misalnya, untuk memperkirakan distribusi pendapatan atau untuk mengungkap
pola temporal dalam rangkaian waktu). Karena tidak ada teori kausal yang mendasari penelitian
deskriptif, dan karena hasil dilaporkan pada tingkat variabel yang diukur, InfoQ bergantung,
seperti dalam tugas prediktif, pada kualitas variabel yang diukur dan bukan pada hubungannya
dengan konstruk yang mendasarinya.
Operasionalisasi tindakan adalah tentang memperoleh tindakan nyata dari informasi yang
diberikan oleh sebuah penelitian. Ketika sebuah laporan, yang menyajikan analisis kumpulan
data tertentu dalam konteks tujuan tertentu, menghasilkan tindakan tindak lanjut yang jelas,
kami mempertimbangkan laporan InfoQ yang lebih tinggi. Dimensi operasionalisasi tindakan
telah dibahas dalam berbagai konteks. Dalam lingkungan bisnis dan industri, definisi operasional
terdiri dari (i) kriteria yang diterapkan pada suatu objek atau sekelompok objek, (ii) uji kepatuhan
terhadap objek atau kelompok tersebut, dan (iii) aturan pengambilan keputusan untuk
menafsirkan hasil pengujian apakah objek atau kelompok tersebut memenuhi atau tidak.
Definisi Deming (2000) ini sangat mirip dengan pernyataan pembuka Shewhart dalam bukunya
Statistical Method from the Viewpoint of Quality Control (Shewhart, 1986):
Secara garis besar ada tiga langkah dalam proses pengendalian kualitas:
spesifikasi barang yang diinginkan, produksi barang untuk memenuhi spesifikasi,
dan pemeriksaan barang yang diproduksi untuk melihat apakah barang tersebut
memenuhi spesifikasi.
Dalam konteks kinerja organisasi yang luas, Deming (2000) mengajukan tiga pertanyaan
penting untuk membantu menilai tingkat operasionalisasi tindakan dari studi organisasi tertentu.
Ini adalah sebagai berikut:
4. Apa yang dapat saya lakukan untuk membantu anak saya berkembang?
Operasionalisasi tindakan statistik resmi juga telah dibahas secara luas oleh lembaga statistik
resmi, secara internal, dan dalam literatur. Mengutip Forbes dan Brown (2012):
3.2.8 Komunikasi
Komunikasi efektif dari analisis f(X|g) dan kegunaannya U secara langsung mempengaruhi InfoQ.
Media komunikasi yang umum meliputi presentasi dan laporan visual, tekstual, dan verbal. Dalam
lingkungan penelitian, komunikasi berfokus pada publikasi tertulis dan presentasi konferensi.
Pendampingan penelitian dan proses wasit ditujukan untuk meningkatkan komunikasi (dan InfoQ)
dalam komunitas riset.
Hasil penelitian dikomunikasikan kepada publik melalui artikel di media populer dan wawancara di
televisi dan konferensi seperti www.ted.com dan yang terbaru melalui blog dan media internet lainnya.
Di sini risiko miskomunikasi jauh lebih besar. Misalnya, studi “surplus konsumen dalam lelang eBay”
diliput oleh media publik. Namun, hasil utama tidak selalu disampaikan dengan baik oleh jurnalis.
Misalnya artikel nytimes.com (http://bits.blogs.nytimes.
notasi kami, arti f—dalam hal ini analisis risiko—dan implikasinya tidak dikomunikasikan dengan
baik.
Dalam pembahasan penulisan ilmiah, Gopen dan Swan (1990) menyatakan bahwa jika
pembaca ingin memahami apa yang penulis maksudkan, maka penulis harus memahami apa
yang dibutuhkan pembaca. Secara umum, ini merupakan elemen penting dalam komunikasi
yang efektif. Penting untuk ditekankan bahwa wacana ilmiah bukan sekadar penyajian informasi,
melainkan komunikasi aktual. Tidak peduli betapa senangnya seorang penulis karena telah
mengubah semua data yang benar menjadi kalimat dan paragraf; yang penting adalah apakah
sebagian besar pembaca memahami secara akurat apa yang ada dalam pikiran penulis.
Komunikasi adalah dimensi InfoQ kedelapan.
1/ 8
Skor InfoQ d Y dY ÿ
dY
1 1 22 8 8
Pendekatan yang menggunakan skor keinginan menghasilkan skor nol ketika setidaknya
salah satu elemen dinilai pada nilai skala yang lebih rendah. Dengan kata lain, jika salah satu
dimensi berada pada peringkat terendah, InfoQ dianggap nol. Opsi yang lebih halus
Machine Translated by Google
terdiri dari rata-rata skor penilaian dengan rata-rata aritmatika atau rata-rata geometrik.
Dalam contoh di buku ini, kami menggunakan pendekatan keinginan.
Kami mengilustrasikan penggunaan pendekatan berbasis pemeringkatan ini untuk studi Katkar
dan Reiley (2006) di Bagian 3.4. Kami juga menggunakan pendekatan ini untuk setiap penelitian
yang diuraikan dalam Bagian II dan III buku ini.
Di banyak bidang, merupakan praktik umum untuk memulai analisis dengan studi percontohan
berdasarkan sampel kecil. Pendekatan ini memberikan wawasan awal tentang dimensi InfoQ.
Setelah uji coba tersebut, kumpulan data dapat diperluas, jangka waktu baru untuk mencatat data
dapat ditentukan, dan penelusuran lebih mendalam mengenai masalah yang ada dan pemangku
kepentingan utama dapat dimulai. Strategi ini juga merupakan praktik umum dalam desain survei,
dimana uji coba dengan responden yang representatif dilakukan untuk menentukan validitas dan
kegunaan kuesioner (Knett dan Salini, 2012).
Lelang cadangan rahasia akan menghasilkan harga rata-rata $0,63 lebih rendah
dibandingkan lelang cadangan publik.
Machine Translated by Google
Kami mengevaluasi delapan dimensi InfoQ berdasarkan makalah Katkar dan Reiley (2006).
Evaluasi yang lebih menyeluruh memerlukan interaksi dengan penulis penelitian dan akses terhadap
data mereka. Untuk tujuan demonstrasi kami menggunakan skala 1–5 dan menghasilkan skor InfoQ
berdasarkan fungsi keinginan dengan d(1)=0, d(2)=0.25, d(3)=0.5, d(4)=0.75, dan d(5)=1.
Mengingat tingkat perhatian yang mendetail terhadap kondisi eksperimen, namun kurangnya
penggunaan rangkaian waktu dan data tekstual yang tersedia, kami menilai dimensi ini sebagai Y2=4 (tinggi).
3.4.6 Generalisasi
Studi ini berkaitan dengan generalisasi statistik: Apakah efek yang ditemukan dalam sampel dapat
digeneralisasikan ke dalam konteks lelang online yang lebih luas? Salah satu kemungkinan bias, yang diakui
oleh penulis, adalah peringkat penjual mereka nol (menunjukkan penjual baru) yang membatasi kemampuan
generalisasi penelitian ini pada penjual yang lebih bereputasi.
Selain itu, mereka membatasi keumuman hasil mereka pada item bernilai rendah, yang mungkin tidak dapat
digeneralisasikan pada item yang lebih mahal. Kami menilai dimensi ini sebagai Y6=3 (dapat diterima).
3.4.7 Operasionalisasi
Dalam operasionalisasi konstruk, para peneliti mempertimbangkan dua teori yang menjelaskan pengaruh
harga rahasia versus harga cadangan publik terhadap harga akhir. Salah satu penjelasan psikologisnya
adalah: para penawar bisa “terjebak dalam penawaran” pada jumlah penawaran yang rendah dan akhirnya
mengajukan penawaran lebih tinggi dibandingkan jika penawaran dimulai dengan harga yang lebih tinggi.
Teori kedua adalah model penawar yang rasional: “lelang dengan penawaran awal yang rendah dan cadangan
rahasia yang tinggi dapat memberikan lebih banyak informasi kepada penawar dibandingkan lelang dengan
penawaran awal yang tinggi.” Meskipun kedua teori ini mengandalkan konstruksi operasional seperti
“informasi” dan “terjebak dalam penawaran,” para peneliti membatasi studi mereka pada opsi harga cadangan
dan harga akhir yang dapat diukur di eBay.
Dalam hal operasionalisasi tindakan, hasil studi dapat langsung digunakan oleh pembeli dan penjual di
platform lelang online, serta situs lelang (mengingat adanya pembatasan generalisasi di luar eBay dan di luar
kartu Pokémon). Ingatlah bahwa penelitian ini menguji pengaruh harga cadangan tidak hanya pada harga
lelang akhir tetapi juga pada kemungkinan lelang menghasilkan penjualan. Para penulis menyimpulkan:
Hanya 46% lelang cadangan rahasia yang menghasilkan penjualan, dibandingkan dengan
70% lelang cadangan publik untuk barang yang sama. Lelang cadangan rahasia menghasilkan
0,72 lebih sedikit penawar serius per lelang, dan $0,62 lebih sedikit pada lelang akhir
Machine Translated by Google
harga lelang, dibandingkan rata-rata lelang cadangan publik. Oleh karena itu kami dapat
menyarankan agar penjual menghindari penggunaan harga cadangan rahasia, khususnya
untuk kartu Pokémon.
Para penulis membatasi rekomendasi mereka pada barang-barang berbiaya rendah dengan
mengutip dari The Official eBay Guide (Kaiser dan Kaiser, 1999): “Jika harga jual minimum Anda di
bawah $25, berpikirlah dua kali sebelum menggunakan lelang cadangan. Penawar sering kali
menyamakan cadangan dengan mahal.”
Perhatikan bahwa karena hasil studi ini berlaku untuk “lelang rata-rata”, maka hasil ini paling dapat
ditindaklanjuti baik untuk platform lelang online yang menyelenggarakan banyak lelang atau untuk
penjual yang menjual banyak barang. Hasilnya tidak memberi tahu kita tentang keakuratan prediksi
untuk satu lelang.
Kami menilai dimensi ini sebagai Y7=4 (tinggi).
3.4.8 Komunikasi
Studi penelitian ini mengkomunikasikan analisisnya melalui makalah yang diterbitkan di jurnal peer-
jurnal yang direview. Hasil analisis disajikan dalam bentuk scatter plot, rangkaian estimasi model regresi
(estimasi efek dan standar error) serta interpretasinya dalam teks. Kami berasumsi bahwa penelitian
tersebut melakukan upaya diseminasi tambahan (misalnya, makalah ini tersedia untuk umum secara
online sebagai kertas kerja).
Abstrak makalah ini ditulis dalam bahasa non-teknis dan jelas sehingga dapat dengan mudah dipahami
tidak hanya oleh akademisi dan peneliti tetapi juga oleh peserta eBay. Kelemahan komunikasi utama
dari analisis ini adalah dalam hal visualisasi, dimana plot dapat menyampaikan beberapa hasil dengan
lebih jelas. Oleh karena itu kami menilai dimensi ini sebagai Y8= 4 (tinggi).
1. Penyelesaian data 4
2. Struktur data 3. 4
Integrasi data 4. 4
Relevansi temporal 5. 5
Kronologi data dan tujuan 6. 5
Generalisasi 7. 3
Operasionalisasi 8. 4
Komunikasi 4
Berdasarkan penilaian subjektif ini, yang mewakili pendapat para ahli yang diperoleh dari publikasi
tunggal eksperimen lelang, kami memperoleh skor InfoQ berdasarkan rata-rata geometri keinginan
sebesar 77%, yang berarti relatif tinggi.
Dimensi yang relatif lemah adalah kemampuan generalisasi; dimensi terkuat adalah relevansi temporal
dan kronologi data serta tujuan. Upaya untuk meninjau skor
Machine Translated by Google
dengan beberapa perspektif waktu membuktikan bahwa skor ini kuat meskipun pendapat para ahli cenderung
berbeda sampai batas tertentu. Untuk mendapatkan skor berdasarkan konsensus, seseorang dapat meminta
sejumlah ahli (tiga hingga lima orang) untuk meninjau kasus tersebut dan membandingkan skor mereka.
Jika skornya konsisten, seseorang dapat memperoleh skor InfoQ yang konsisten. Jika terdapat perbedaan,
maka pertemuan konsensus para ahli akan dilakukan untuk membahas alasan di balik skor mereka dan
melakukan rekonsiliasi skor.
Jika rentang skor tetap ada, maka skor InfoQ dapat disajikan sebagai rentang nilai.
3.5 Ringkasan
Dalam bab ini kami membagi konsep InfoQ menjadi delapan dimensi, masing-masing dimensi berkaitan
dengan aspek berbeda dari komponen tujuan–data–analisis–utilitas.
Dengan adanya studi empiris, kita kemudian dapat menilai tingkat InfoQ dengan memeriksa masing-masing
dari delapan dimensi. Kami menyajikan empat pendekatan penilaian dan mengilustrasikan pendekatan
berbasis rating dengan menerapkannya pada penelitian Katkar dan Reiley (2006) mengenai pengaruh harga
cadangan dalam lelang online.
Penilaian InfoQ dapat dilakukan pada tahap perencanaan suatu penelitian, pada saat penelitian, atau
setelah penelitian dilaporkan. Pada Bab 13 kita membahas penerapan penilaian InfoQ pada proposal
penelitian mahasiswa pascasarjana. Pada Bab 4 dan 5, kami berfokus pada metode statistik yang dapat
diterapkan, baik secara apriori maupun a posteriori, untuk meningkatkan InfoQ, dan Bab 6–10 membahas
tentang penilaian InfoQ terhadap studi yang telah diselesaikan. Penilaian tersebut memberikan peluang
untuk peningkatan InfoQ, pada desain penelitian, selama atau setelah penelitian selesai.
Masing-masing dimensi InfoQ berkaitan dengan metode peningkatan InfoQ yang memerlukan
keterampilan multidisiplin. Misalnya, integrasi data terkait dengan kemampuan TI seperti teknologi ekstrak–
transformasi–muat (ETL), dan operasionalisasi tindakan dapat dikaitkan dengan proses manajemen di mana
item tindakan ditentukan untuk meluncurkan intervensi terfokus. Untuk pembahasan komprehensif tentang
teknik analitik data, lihat Shmueli dkk. (2016).
Pada Bagian II, kami mengkaji berbagai penelitian dari berbagai bidang dengan menggunakan rating-
pendekatan berbasis untuk menilai delapan dimensi InfoQ. Kombinasi area aplikasi dan penilaian InfoQ
memberikan contoh berbasis konteks. Kami menyarankan untuk memulai dengan domain minat tertentu,
meninjau contoh di masing-masing bab, lalu beralih ke domain dan bab lain. Kombinasi contoh spesifik
domain dan studi kasus lintas domain dirancang untuk memberikan perspektif umum dan mendalam
mengenai nilai tambah penilaian InfoQ.
Referensi
Bapna, R., Goes, P., Gopal, R. dan Marsden, JR (2006) Beralih dari penelitian yang dibatasi data ke
penelitian yang mendukung data: pengalaman dan tantangan dalam mengumpulkan, memvalidasi, dan
menganalisis data e-commerce berskala besar. Ilmu Statistik, 21, hlm.116–130.
Bapna, R., Jank, W. dan Shmueli, G. (2008a) Surplus konsumen dalam lelang online. Informasi
Penelitian Sistem, 19, hlm.400–416.
Machine Translated by Google
Bapna, R., Jank, W. dan Shmueli, G. (2008b) Pembentukan harga dan dinamikanya secara online
lelang. Sistem Pendukung Keputusan, 44, hlm.641–656.
Boslaugh, S. (2007) Sumber Data Sekunder Kesehatan Masyarakat: Panduan Praktis. Cambridge
University Press, Cambridge, Inggris.
De Veaux, RD (2009) Eksplorasi Data Mining yang Berhasil dalam Prakteknya. Seri Penjelajah JMP.
http://www.williams.edu/Mathematics/rdeveaux/success.pdf (diakses 24 Mei 2016).
Deming, WE (2000) Keluar dari Krisis. MIT Pers, Cambridge, MA.
Ehling, M. dan Körner, T. (2007) Buku Panduan Eurostat tentang Metode dan Alat Penilaian Kualitas
Data, Wiesbaden. http://ec.europa.eu/eurostat/web/quality/qualityÿreporting (diakses 30 April 2016).
Fienberg, SE (2006) Privasi dan kerahasiaan dalam dunia e-commerce: penambangan data,
pergudangan data, pencocokan dan batasan pengungkapan. Ilmu Statistik, 21, hlm.143–154.
Figini, S., Kenett, RS dan Salini, S. (2010) Mengintegrasikan penilaian risiko operasional dan keuangan
catatan. Rekayasa Kualitas dan Keandalan Internasional, 26, hlm.887–897.
Forbes, S. dan Brown, D. (2012) Pemikiran konseptual di kantor statistik nasional. Statistik
Jurnal IAOS, 28, hlm.89–98.
Ghani, R. dan Simmons, H. (2004) Memprediksi Harga Akhir Lelang Online. Lokakarya Internasional
tentang Penambangan Data dan Metode Pemodelan Adaptif untuk Ekonomi dan Manajemen, Pisa.
Giovanni, E. (2008) Pengertian Statistik Ekonomi. Organisasi untuk Kerja Sama Ekonomi dan Penerbitan
Pembangunan, Jenewa.
Goldenberg, A., Shmueli, G., Caruana, RA dan Fienberg, SE (2002) Deteksi statistik dini wabah antraks
dengan melacak penjualan obat bebas. Prosiding National Academy of Sciences, 99(8), hlm.5237–
5240.
Goodman, D. dan Hambleton, R. (2004) Laporan nilai ujian siswa dan panduan interpretatif: tinjauan
praktik saat ini dan saran untuk penelitian masa depan. Pengukuran Terapan dalam Pendidikan,
17(2), hlm.145–220.
Gopen, G. dan Swan, J. (1990) Ilmu penulisan ilmiah. Ilmuwan Amerika, 78,
hal.550–558.
Granger, CWJ (1969) Menyelidiki hubungan sebab akibat dengan model ekonometrik dan metode lintas-
spektral. Ekonometrika, 37, hlm.424–438.
Sekretariat Jaringan Metrik Kesehatan (2008) Kerangka dan Standar Jaringan Metrik Kesehatan untuk
Sistem Informasi Kesehatan Negara, edisi ke-2. Organisasi Kesehatan Dunia, Jaringan Metrik
Kesehatan, Jenewa.
Kaiser, LF dan Kaiser, M. (1999) Panduan Resmi eBay untuk Membeli, Menjual, dan Mengumpulkan
Tentang Apa Saja. Simon & Schuster, New York.
Katkar, R. dan Reiley, DH (2006) Harga cadangan publik versus rahasia dalam lelang eBay: hasil dari
eksperimen lapangan Pokemon. Kemajuan dalam Analisis dan Kebijakan Ekonomi, 6(2), pasal 7.
Kaynak, E. dan Herbig, P. (2014) Buku Panduan Pemasaran Lintas Budaya. Routledge, London.
Kenett, RS dan Salini, S. (2012) Analisis Modern Survei Kepuasan Pelanggan: Dengan
Aplikasi Menggunakan R. John Wiley & Sons, Ltd, Chichester, Inggris.
Kenett, RS dan Shmueli, G. (2015) Memperjelas terminologi yang menjelaskan reprodusibilitas ilmiah.
Metode Alam, 12, hlm.699.
Kenett, R., Zacks, S. dan Amberti, D. (2014) Statistik Industri Modern: Dengan Aplikasi di R, MINITAB
dan JMP, edisi ke-2. John Wiley & Sons, Chichester, Sussex Barat, Inggris.
Machine Translated by Google
Wang, RY, Kon, HB dan Madnick, SE (1993) Analisis Persyaratan Kualitas Data dan
Pemodelan. Konferensi Internasional ke-9 tentang Rekayasa Data, Wina.
Wang, S., Jank, W. dan Shmueli, G. (2008) Menjelaskan dan memperkirakan harga lelang online dan
dinamikanya menggunakan analisis data fungsional. Jurnal Statistik Bisnis dan Ekonomi, 26,
hlm.144–160.
Machine Translated by Google
4.1 Pendahuluan
Metodologi statistik mencakup pendekatan desain penelitian yang bertujuan untuk menghasilkan
data dengan metode analisis berkualitas tinggi, f, dan secara implisit memiliki kualitas informasi
tinggi (InfoQ). Misalnya, bidang desain eksperimen (DoE atau DoX) berfokus pada perancangan
eksperimen yang menghasilkan data dengan kekuatan yang cukup untuk mendeteksi efek sebab
akibat yang diinginkan, dalam batasan sumber daya. Domain uji klinis menggunakan desain
penelitian yang mengatasi kendala etika dan kendala subjek manusia lainnya. Dan metodologi
survei menawarkan rencana pengambilan sampel yang bertujuan untuk menghasilkan data survei
dengan InfoQ tinggi. Dalam bab ini kami meninjau beberapa pendekatan statistik untuk
meningkatkan InfoQ pada tahap desain penelitian. Secara khusus, kami melihat pendekatan dan
metodologi untuk meningkatkan InfoQ sebelum pengumpulan data. Meskipun data tidak tersedia
pada tahap perencanaan ini, ada berbagai faktor yang dapat mempengaruhi InfoQ bahkan pada tahap ini.
Penting untuk membedakan antara penyebab yang mempengaruhi kualitas data dan InfoQ a
priori (atau ex ante) dan a posteriori (atau ex post). Penyebab apriori diketahui selama tahap
desain penelitian dan sebelum pengumpulan data. Hal ini diakibatkan, misalnya, dari keterbatasan
sumber daya (misalnya ukuran sampel), pertimbangan etis, hukum, dan keamanan (misalnya
ketidakmampuan untuk menguji obat tertentu pada orang tertentu dalam uji klinis) dan kendala.
pada kombinasi tingkat faktor dalam desain eksperimental. Masalah a posteriori (fokus Bab 5)
dihasilkan dari kinerja sebenarnya dari mekanisme yang menghasilkan atau mengumpulkan data
dan ditemukan (atau tidak) setelah data dikumpulkan (misalnya, kesalahan entri data, kesalahan
pengukuran, kendala ex post dalam kondisi eksperimental dan manipulasi data yang disengaja).
Pertimbangkan kumpulan data terukur X dan kumpulan data target X*ÿX. Kami menyatakan data
yang dipengaruhi oleh penyebab apriori dengan X=ÿ1 (X*), oleh penyebab a posteriori dengan
X=ÿ2 (X*) dan oleh kedua penyebab dengan X=ÿ1 {ÿ2 (X*)}. Dalam bab ini kami menjelaskan
pendekatan yang ada untuk meningkatkan InfoQ dalam berbagai skenario a
© 2017 John Wiley & Sons, Ltd. Diterbitkan 2017 oleh John Wiley & Sons, Ltd.
Situs web pendamping: www.wiley.com/go/information_quality
Machine Translated by Google
dengan desain yang sesuai; desain pengisian ruang data yang sebenarnya;
waktu dan biaya yang
masalah data apriori dan kendala penurunan InfoQ terkait. Tabel 4.1 merangkum strategi dan kendalanya.
Bagian selanjutnya memperluas setiap poin.
Data primer mengacu pada data yang dikumpulkan oleh peneliti untuk tujuan analisis tertentu. Data
sekunder mengacu pada data yang dikumpulkan oleh orang lain selain peneliti atau
Machine Translated by Google
dikumpulkan sebelumnya oleh peneliti untuk tujuan yang berbeda dari tujuan penelitian yang diminati. Data
tersebut mungkin dikumpulkan oleh peneliti atau organisasi lain untuk tujuan analisis yang sama atau untuk
tujuan yang sama sekali berbeda. Singkatnya, data primer dikumpulkan di bawah kendali peneliti dengan
mempertimbangkan tujuan penelitian, sedangkan data sekunder dikumpulkan terlepas dari penelitian yang
diminati.
Perhatikan bahwa istilah primer dan sekunder tidak menyiratkan urutan kepentingan atau kegunaan data,
namun hanya sumber pengumpulan dan tujuan relatif terhadap studi yang diminati. Kelebihan dan kekurangan
data primer dan sekunder dibahas dalam riset pemasaran dan literatur kesehatan masyarakat (Patzer, 1995,
bab 2; Boslaugh, 2007, hlm. 3–4). Pertimbangan penggunaan data sekunder dibandingkan pengumpulan data
primer mencakup biaya perolehan dan penghematan waktu, luasnya data, keahlian pengumpul data,
ketersediaan pengukuran yang diperlukan, pengetahuan tentang proses pengumpulan, dan tantangan yang
dihadapi.
Dalam bab ini kita fokus pada tahap desain pengumpulan pradata suatu penelitian. Metodologi statistik
yang kita diskusikan ditujukan kepada peneliti yang memiliki kendali atas pengumpulan data. Oleh karena itu,
kami melihat data primer. Pada Bab 5 kita melihat metode pengumpulan postdata untuk meningkatkan InfoQ.
Kami menangani data sekunder serta “data primer dengan tujuan yang direvisi”—yaitu, data yang dikumpulkan
untuk satu tujuan, namun kemudian tujuan penelitian direvisi, sehingga menjadikan data tersebut bersifat
“sekunder”.
Meskipun perbedaan antara data primer dan sekunder mungkin tampak jelas, terdapat beberapa desain
studi campuran. Salah satu jenis penelitian yang kita bahas dalam bab ini—eksperimen komputer—
menggabungkan data primer dan sekunder.
Secara khusus, biasanya menggunakan data sekunder untuk membangun model dan kemudian menggunakan
model tersebut untuk mensimulasikan “data primer.” Hibrida data primer-sekunder lainnya adalah meta-analisis,
di mana “data” mengacu pada hasil penelitian sebelumnya yang mempelajari pertanyaan penelitian yang sama.
Metodologi statistik kemudian digunakan untuk menggabungkan hasil-hasil sebelumnya untuk memperoleh
hasil yang lebih tepat dan dapat diandalkan, yaitu untuk meningkatkan InfoQ.
Data observasi terkadang menjadi metode pilihan, terutama bila tujuan penelitian bersifat nonkausal:
deskriptif atau prediktif. Era big data telah menyaksikan pertumbuhan besar dalam pemodelan prediktif
berdasarkan data observasi, dengan penerapan di banyak bidang. Salah satu karakteristik data observasi,
yang berguna untuk prediksi, adalah bahwa data yang dikumpulkan biasanya lebih mirip dengan data selama
target waktu prediksi dibandingkan dengan data dalam eksperimen laboratorium.
Misalnya, metode desain eksperimental yang optimal telah digunakan (Steinberg et al., 1995) dalam
menentukan lokasi sensor untuk mendeteksi gempa bumi. Prosedur umum untuk menerapkan metode desain
optimal pada data observasi telah diusulkan oleh Berni (2003).
Dalam konteks kesehatan, Shavit et al. (2007) mengusulkan pendekatan untuk biaya-
analisis efektivitas studi yang diperlukan untuk mengevaluasi teknologi kesehatan untuk penggantian. Mereka
menganggap bias yang melekat dalam desain penelitian sebagai faktor utama yang membedakan kemampuan
penelitian dalam memprediksi manfaat dari teknologi layanan kesehatan baru. Metode mereka memungkinkan
untuk melakukan, pada tahap desain, evaluasi ekonomi terhadap bias yang melekat dalam desain penelitian
sebagai cara alternatif untuk memperoleh ukuran kesalahan sistematis. Analisis berbasis ekonomi ini juga
bertujuan untuk meningkatkan InfoQ pada tahap desain.
Pada bagian berikut dalam bab ini, kita melihat desain eksperimental dan desain observasional serta
metode statistik yang bertujuan untuk meningkatkan InfoQ dari data yang dihasilkan.
• Membandingkan—Menguji pengaruh satu faktor terhadap suatu respons, sering kali dengan adanya
faktor pengganggu lainnya.
• Penguatan—Mengurangi sensitivitas respons terhadap variabel kebisingan, pada subkumpulan ruang faktor
yang diidentifikasi sebagai optimal. Hal ini dicapai dengan menggunakan rangkaian eksperimen internal dan
eksternal yang mencerminkan pengaturan kontrol dan faktor kebisingan yang proaktif (Phadke, 1989).
Mengingat salah satu tujuan ini dan kendala sumber daya yang umum, faktor eksperimental-
kombinasi level dipilih dan array eksperimental dipilih. Pertimbangan ini mengasumsikan bahwa data akhir akan
sama dengan data ideal: X=ÿ1 (X*). Kemudian, dengan asumsi analisis statistik memadai, data yang dihasilkan oleh
eksperimen tersebut diharapkan menghasilkan InfoQ yang tinggi dalam menjawab pertanyaan yang menarik, pada
tingkat kesalahan tipe I dan II (U) yang diperlukan.
Perhatikan bahwa data yang dikumpulkan melalui desain untuk mencapai tujuan g1 harus menghasilkan InfoQ
Misalnya,
yang tinggi dibandingkan dengan tujuan tersebut, namun mungkin memiliki InfoQ yang rendah untuk gi ÿ g1 .
data dari penelitian yang dirancang untuk menyaring beberapa lusin faktor mungkin memiliki InfoQ yang rendah untuk
membandingkan efek dalam kaitannya dengan faktor yang dipilih dan tingkatnya.
Untuk menunjukkan hal ini, pertimbangkan percobaan faktorial pecahan 27ÿ3 yang dirancang untuk menyaring tujuh
faktor (berlabel M, S, V0, K, P0, T0, dan T) yang mempengaruhi kinerja piston (lihat Gambar 4.1). Eksperimen
semacam itu terdiri dari desain dengan dua tingkat untuk setiap faktor dan memungkinkan untuk menyaring pengaruh
faktor berdasarkan efek linier dan
Gambar 4.1 Tangkapan layar JMP dari eksperimen faktorial pecahan 27ÿ3 dengan simulator piston yang dijelaskan
dalam Kenett dan Zacks (2014). Sumber: Kenett dan Zacks (2014).
Direproduksi dengan izin dari John Wiley & Sons, Inc.
Machine Translated by Google
interaksi. Eksperimen khusus ini adalah bagian dari pendekatan umum untuk mengajar DoE
menggunakan simulator, sehingga memberikan pengalaman interaktif langsung dengan metode DoE.
Simulator piston adalah tambahan gratis pada perangkat lunak JMP yang digunakan di Kenett dan
Zacks (2014) untuk mengajarkan kontrol proses statistik dan DoE. Dari kanan ke kiri, susunan
eksperimental berada dalam urutan standar dan sesuai dengan desain ortogonal yang sepenuhnya
seimbang.
Rancangan alternatifnya adalah dengan menggunakan rancangan penyaringan pasti dengan 17
proses pada tujuh faktor yang sama (lihat Gambar 4.2). Desain ini menggabungkan tiga level untuk
setiap faktor dan oleh karena itu memberikan kemampuan untuk memodelkan efek kuadrat hanya
dengan satu kali percobaan lebih banyak dibandingkan dengan desain sebelumnya.
Untuk membandingkan desain, kita dapat menggunakan sebagian kecil plot ruang desain yang
mengkarakterisasi ruang eksperimen dalam bentuk varians prediksi (lihat Gambar 4.3). Plot menunjukkan
bahwa rata-rata varians prediksi untuk desain faktorial pecahan 27ÿ3 adalah 0,0135 dan untuk desain
penyaringan pasti, 0,225. Selain itu, kita melihat bahwa varians prediksi dalam eksperimen faktorial
pecahan kurang lebih seragam di seluruh wilayah desain, dibandingkan dengan desain penyaringan
pasti. Dalam desain tersebut kita melihat bahwa varians prediksi berkisar antara 0,1 hingga 0,4 di
pinggiran rentang eksperimen. Desain pilihan jelas bergantung pada tujuan penyelidikan.
Gambar 4.2 Tangkapan layar JMP dari eksperimen desain penyaringan definitif dengan simulator piston
yang dijelaskan dalam Kenett dan Zacks (2014). Sumber: Kenett dan Zacks (2014). Direproduksi dengan
izin dari John Wiley & Sons, Inc.
Machine Translated by Google
Gambar 4.3 Tangkapan layar JMP pecahan plot ruang desain dan diagnostik desain desain
penyaringan pecahan (kiri) dan pasti (kanan).
Skrining dengan desain faktorial fraksional lebih baik; namun desain penyaringan yang pasti
memungkinkan pengoptimalan yang lebih baik karena mengambil efek kuadrat. Jika tujuan kita
adalah untuk mengidentifikasi cara terbaik mengoperasikan piston untuk mencapai kinerja target,
kita akan memilih desain penyaringan pasti meskipun kinerjanya lebih buruk daripada desain
seimbang faktorial fraksional. Untuk informasi lebih lanjut mengenai desain penyaringan yang pasti
dan optimasi desain di bawah batasan pada tingkat faktor eksperimental, lihat Goos dan Jones
(2011).
Dalam studi eksperimental lelang online yang dibahas di Bab 3, kami mempertimbangkan
pilihan item yang akan dilelang oleh peneliti (kartu Pokémon), desain eksperimen (menjual 25
pasang kartu Pokémon identik, masing-masing kartu dilelang dua kali: sekali dengan cadangan
umum dan sekali lagi dengan cadangan rahasia) dan pengaturan eksperimental (misalnya, semua
lelang adalah lelang tujuh hari dan dimulai pada hari Minggu antara jam 7 dan 9 malam.
Waktu Standar Timur, dan peringkat penjual dipertahankan pada nol), yang semuanya ditujukan
secara langsung untuk mencapai InfoQ yang tinggi untuk menjawab pertanyaan komparatif tertentu.
Sebaliknya, data yang sama akan menjadi InfoQ yang rendah untuk studi penyaringan guna
menentukan faktor-faktor utama yang mempengaruhi harga akhir, karena banyak faktor potensial
seperti durasi lelang, hari awal dan akhir dalam seminggu, dan peringkat penjual sengaja dibuat.
diadakan konstan.
Machine Translated by Google
Selain itu, strategi pengacakan, yang merupakan inti dari eksperimen, masih
diperdebatkan secara etis (Friedman et al., 1999, hal. 45). Prinsip penting dalam analisis
uji klinis adalah menghubungkan protokol pengumpulan data dengan analisis data: “saat
kamu mengacak, maka kamu juga harus menganalisis” (Senn, 2004). Untuk penanganan
komprehensif masalah statistik dan etika uji klinis pertama pada manusia, lihat Senn dkk.
(2007).
Badan Pengawas Obat dan Makanan (FDA) mengeluarkan dokumen panduan berjudul
“Strategi Pengayaan Uji Klinis untuk Mendukung Persetujuan Obat Manusia dan Produk
Biologis” (FDA, 2012). Dokumen tersebut mendefinisikan pengayaan sebagai “penggunaan
prospektif dari setiap karakteristik pasien untuk memilih populasi penelitian di mana
deteksi efek obat (jika memang ada) lebih mungkin terjadi dibandingkan pada populasi
yang tidak dipilih.” Tujuan dari panduan ini adalah untuk meningkatkan InfoQ dengan
metode desain yang efektif.
Machine Translated by Google
Strategi pengayaan dipertimbangkan dalam konteks uji coba terkontrol secara acak (RCT) dan
sebagian besar mempengaruhi pemilihan pasien sebelum pengacakan. Ini mencakup tiga metode utama:
1. Strategies to drop heterogeneity – Strategi ini mencakup pemilihan pasien dengan pengukuran
dasar dalam rentang yang sempit (variabilitas antar pasien menurun) dan mengecualikan pasien
yang penyakit atau gejalanya membaik secara spontan atau yang pengukurannya sangat
bervariasi. Penurunan variabilitas yang diberikan oleh pendekatan ini meningkatkan kekuatan
belajar.
2. Strategi pengayaan prognostik - Memilih pasien dengan kemungkinan lebih besar mengalami
kejadian akhir terkait penyakit atau kondisi yang memburuk secara signifikan. Pendekatan ini
meningkatkan perbedaan efek absolut antar kelompok tetapi tidak akan mengubah efek relatif.
3. Strategi pengayaan prediktif – Memilih pasien yang lebih mungkin merespons pengobatan obat
dibandingkan pasien lain dengan kondisi yang sedang dirawat.
Seleksi seperti ini dapat menghasilkan ukuran efek yang lebih besar dan memungkinkan penggunaan populasi penelitian
tingkat. Implikasi lain dari keamanan adalah sangat kecilnya ukuran sampel yang digunakan
dalam studi fase I (untuk menilai tingkat toksisitas suatu obat terhadap manusia) dan sifat
pemberian obat yang berurutan. Faktanya, desain multitahap dan sekuensial sangat populer
dalam konteks uji klinis karena pertimbangan etika dan keamanan. Kebutuhan untuk
mendapatkan persetujuan dari peserta uji klinis menimbulkan kendala pada kemampuan
untuk mendapatkan hasil yang “objektif” karena berdampak pada efek psikologis dan tingkat
kepatuhan. Oleh karena itu, keterbatasan data yang timbul dari pertimbangan etika dan
keamanan dalam uji klinis dapat menyebabkan InfoQ lebih rendah.
desain penelitian akan mencapai InfoQ yang memadai. Seperti dalam uji klinis, InfoQ berpotensi dibatasi
oleh kendala tersebut.
Meninjau kembali contoh lelang online, pertimbangkan studi survei yang bertujuan membandingkan ciri-
ciri perilaku pemenang lelang yang mengajukan penawaran versus mereka yang membayar harga “beli
sekarang” (pilihan yang populer di banyak lelang online, yang memungkinkan individu untuk membeli
barang). barang dengan harga tetap sebelum dimulainya penawaran). Kegelisahan dkk. (2008) mensurvei
pemenang lelang eBay untuk menguji apakah daya saing, impulsif, dan tingkat hedonistik perlu memisahkan
penawar dari pembeli dengan harga tetap. Untuk mendapatkan data dengan InfoQ tinggi, mereka mencoba
mengurangi bias nonsampling (misalnya, dengan menggunakan skala yang telah divalidasi sebelumnya
dalam kuesioner dan mengirimkan beberapa tindak lanjut) serta bias sampling (dengan memilih sampel
lelang untuk produk populer selama periode terbatas). jangka waktu). Beberapa keterbatasan mengurangi
InfoQ dalam penelitian ini: isu-isu nonsampling mencakup tingkat respons sebesar 27% (113 kuesioner
yang dapat digunakan) dan perubahan kebijakan eBay selama periode survei yang menyebabkan
pergeseran dari survei Web ke survei email (sehingga memperkenalkan “survei efek "tipe").
Masalah pengambilan sampel berkaitan dengan kemampuan generalisasi dari sampel ke populasi yang
lebih besar, mengingat ukuran sampel yang kecil dan hanya satu produk yang dipilih. Untuk informasi lebih
lanjut mengenai survei pelanggan, lihat Kenett dan Salini (2012).
Dalam contoh lain, Ginsburg dan Ben Gal (2006) menyarankan strategi eksperimen untuk desain model
empiris yang kuat. Pendekatan ini digunakan untuk merancang eksperimen yang meminimalkan varians dari solusi
optimal yang kuat. Kriteria optimalitas DoE baru ini, disebut Vs-optimal, memprioritaskan estimasi koefisien model,
sehingga varians dari solusi optimal diminimalkan berdasarkan eksperimen yang dilakukan. Pendekatan ini
memberikan studi InfoQ tinggi yang berfokus pada pencapaian kinerja yang kuat.
Sebagai contoh terakhir, kami menyebutkan karya Engel dkk. (2016) yang membahas metode desain yang
kuat ketika agen degradasi mempengaruhi kinerja dari waktu ke waktu. Dalam konteks ini, penulis menyajikan
metode untuk menentukan target yang memperhitungkan, pada tahap desain, perubahan persyaratan yang pada
akhirnya dapat menyebabkan kegagalan. Dengan kata lain, suatu sistem biasanya dirancang untuk memenuhi
tujuan tertentu yang dijelaskan dalam dokumen persyaratan. Namun, seiring berjalannya waktu, persyaratan ini
mungkin berubah dan biasanya menjadi lebih ketat, dan kinerja yang dulu dianggap dapat diterima kini tidak lagi
berlaku. Perubahan tujuan ini dapat diantisipasi secara apriori dan diperhitungkan dalam spesifikasi desain. Dalam
makalah mereka, Engel dkk. (2016) menyajikan contoh alat pacu jantung yang dipengaruhi oleh agen kegagalan
degradasi tersebut.
Ini, dan contoh-contoh lain sebelumnya, menunjukkan bagaimana pertimbangan apriori dapat digunakan untuk
memastikan InfoQ yang tinggi dari sebuah studi atau desain.
4.8 Ringkasan
Dalam bab ini, kita melihat beberapa pendekatan statistik yang diterapkan pada tahap pengumpulan pradata,
dengan tujuan menghasilkan data dengan InfoQ tinggi. Kami memberikan contoh skenario data primer dan
sekunder serta eksperimen dan observasi
Machine Translated by Google
kasus. Kami membahas prinsip-prinsip utama DoE, uji klinis, pengambilan sampel survei, dan
eksperimen komputer yang bertujuan untuk memaksimalkan InfoQ sambil tetap mematuhi
batasan dan persyaratan yang diakibatkan oleh faktor-faktor seperti keselamatan, pertimbangan
etika, kendala sumber daya, dll. Kendala tersebut—yang kami sebut sebagai a penyebab apriori
—mempengaruhi InfoQ bahkan sebelum data dikumpulkan. Tabel 4.1 merangkum strategi
untuk meningkatkan InfoQ pada tahap pengumpulan pradata serta kasus apriori yang
menurunkan InfoQ. Pada bab selanjutnya kita akan membahas strategi untuk memaksimalkan
InfoQ pada tahap pengumpulan postdata.
Referensi
Angst, CM, Agarwal, R. dan Kuruzovich, J. (2008) Menawar atau membeli? Ciri-ciri belanja individu
sebagai prediktor jalan keluar strategis dalam lelang online. Jurnal Internasional Perdagangan
Elektronik, 13(1), hlm.59–84.
Bareinboim, E. dan Pearl, J. (2013a) Meta-Transportabilitas Efek Kausal: Pendekatan Formal.
Prosiding Konferensi Internasional Kecerdasan Buatan dan Statistik (AISTATS) ke-16, AIII,
Scottsdale, AZ.
Bareinboim, E. dan Pearl, J. (2013b) Transportabilitas Kausal dengan Eksperimen Terbatas.
Prosiding Konferensi Kecerdasan Buatan (AAAI) ke-27, AIII, Bellevue, Washington.
Bates, R., Kenett, R., Steinberg, D. dan Wynn, H. (2006) Mencapai desain yang kuat dari simulasi
komputer. Teknologi Mutu dan Manajemen Kuantitatif, 3, hlm.161–177.
Bayarri, M., Berger, J., Paulo, R., Sacks, J., Cafeo, J., Cavendish, J., Lin, C.ÿH. dan Tu, J.
(2007) Kerangka validasi model komputer. Teknometri, 49, hlm.138–154.
Food and Drug Administration (2012) Strategi Pengayaan Uji Klinis untuk Mendukung Persetujuan
Obat Manusia dan Produk Biologis. http://www.fda.gov/downloads/drugs/
bimbingankepatuhanregulatorinformasi/panduan/ucm332181.pdf (diakses 20 Oktober 2015).
Forsyth, B., Levin, K. dan Fisher, S. (1999) Uji Metode Penilaian untuk Kuesioner Survei Pendirian.
Prosiding Bagian Metode Penelitian Survei, American Statistical Association. www.amstat.org/
sections/srms/proceedings/papers/1999_021.pdf (diakses 20 Oktober 2015).
Friedman, LM, Furberg, CD dan DeMets, DL (1999) Dasar-dasar Uji Klinis, edisi ke-3. Springer, New
York.
Machine Translated by Google
Ginsburg, H. dan Ben Gal, I. (2006) Merancang eksperimen untuk masalah optimasi yang kuat:
kriteria Vs-optimalitas. Transaksi IIE, 38, hlm.445–461.
Goos, P. dan Jones, B. (2011) Desain Eksperimen Optimal: Pendekatan Studi Kasus. Yohanes
Wiley & Sons, Inc., Hoboken, NJ.
Huang, D. dan Allen, TT (2005) Desain dan analisis eksperimen fidelitas variabel diterapkan pada desain
proses perlakuan panas katup mesin. Statistik Terapan, 54, hlm.443–463.
Kenett, RS dan Salini, S. (2012) Analisis Modern Survei Kepuasan Pelanggan: Dengan
Aplikasi Menggunakan R. John Wiley & Sons, Ltd, Chichester, Inggris.
Kenett, RS dan Zacks, S. (2014), Statistik Industri Modern: Dengan Aplikasi Menggunakan R,
MINITAB dan JMP, edisi ke-2. John Wiley & Sons, Inc., Hoboken, NJ.
Patzer, GL (1995) Menggunakan Data Sekunder dalam Riset Pemasaran: Amerika Serikat dan
Di seluruh dunia. Praeger, Westport, CT.
Phadke, MS (1989) Rekayasa Kualitas Menggunakan Desain yang Kuat. Prentice Hall, Englewood
Tebing, NJ.
SaarÿTsechansky, M., Melville, P. dan Provost, F. (2009) Akuisisi nilai fitur aktif.
Ilmu Manajemen, 55(4), hlm.664–684.
Senn, S. (2004) Kontroversi mengenai pengacakan dan aditif dalam uji klinis.
Statistik Kedokteran, 23, hlm.3729–3753.
Senn, S., Amin, D., Bailey, R., Bird, S., Bogacka, B., Colman, P., Garett, A., Grieve, A. dan Lachmann, P.
(2007) Masalah statistik di studi orang pertama. Jurnal Royal Statistical Society: Seri A (Statistik dalam
Masyarakat), 170(3), hlm.517–579.
Shavit, O., Leshno, M., Goldberger, A., Shmueli, A. dan Hoffman, A. (2007) Saatnya memilih desain studi!
Analisis manfaat bersih dari desain studi alternatif untuk memperoleh informasi untuk evaluasi teknologi
kesehatan. FarmakoEkonomi, 25 (11), hlm.903–911.
Steinberg, D., Rabinowitz, N., Shimshoni, Y. dan Mizrachi, D. (1995) Mengkonfigurasi jaringan seismografis
untuk pemantauan optimal garis patahan dan berbagai sumber. Buletin Persatuan Seismologi Amerika,
85(6), hlm.1847–1857.
Machine Translated by Google
5.1 Pendahuluan
Pada Bab 4, kami menguji faktor-faktor yang mempengaruhi tahap desain studi pengumpulan pradata,
yang menghasilkan InfoQ rendah dan kumpulan data X yang terkait dengan kumpulan data target X*.
Bab tersebut menyajikan serangkaian metode untuk meningkatkan InfoQ pada tahap pengumpulan
pradata.
Dalam bab ini, kita beralih ke tahap selanjutnya dari studi empiris, setelah data dikumpulkan. Data
tersebut mungkin dikumpulkan oleh peneliti untuk tujuan penelitian (data primer) atau sebaliknya (data
sekunder dan semisekunder). Datanya mungkin observasional atau eksperimental. Selain itu,
penelitian tersebut mungkin memiliki tujuan yang direvisi atau bahkan kegunaan yang direvisi.
Perubahan ini mempengaruhi cara data dianalisis untuk memperoleh InfoQ penelitian yang tinggi.
Kami mulai dengan memaparkan poin-poin penting tentang data primer, sekunder, dan
semisekunder, serta tujuan yang direvisi dan utilitas yang direvisi. Kami kemudian beralih ke diskusi
tentang metode dan pendekatan yang ada yang dirancang untuk meningkatkan kualitas informasi
pada tahap pengumpulan pascadata. Metodenya berkisar dari “memperbaiki” data hingga
menggabungkan data dari beberapa penelitian hingga memasukkan data yang hilang. Dalam beberapa
kasus kita dapat langsung memodelkan distorsi antara X dan X*. Untuk berbagai metode yang dibahas
di sini, kami menguji hubungan antara kumpulan data target X* dan kumpulan data aktual X
sebagai fungsi dari penyebab apriori, ÿ1 , dan penyebab a posteriori, ÿ2 , melalui hubungan X=ÿ2 {ÿ1
(X*)}. Setiap pendekatan dirancang untuk meningkatkan InfoQ penelitian dengan mengatasi penyebab
a posteriori tertentu.
© 2017 John Wiley & Sons, Ltd. Diterbitkan 2017 oleh John Wiley & Sons, Ltd.
Situs web pendamping: www.wiley.com/go/information_quality
Machine Translated by Google
Pada Bab 4 kita telah menjelaskan istilah data primer dan data sekunder serta perbedaan di
antara keduanya. Ingatlah bahwa perbedaannya didasarkan pada hubungan antara peneliti
atau tim yang mengumpulkan data dan pihak yang menganalisisnya. Oleh karena itu, kumpulan
data yang sama dapat menjadi data primer dalam satu analisis dan data sekunder dalam
analisis lainnya (Boslaugh, 2007). Data primer mengacu pada data yang dikumpulkan oleh
peneliti untuk tujuan analisis tertentu. Data sekunder mengacu pada data yang dikumpulkan
oleh orang lain selain peneliti atau dikumpulkan sebelumnya oleh peneliti untuk tujuan yang
berbeda. Terakhir, ada hibrida. Pada Bab 4 kita melihat eksperimen komputer, yang
menghasilkan data primer (simulasi) berdasarkan data sekunder (dari model fisik).
Pada bagian selanjutnya, kita melihat metode dan pendekatan yang ada untuk
meningkatkan InfoQ pada tahap pengumpulan pascadata untuk data yang muncul baik dari
sumber primer, sekunder, atau hibrid. Meskipun data primer dirancang untuk memuat InfoQ
tinggi karena keterlibatan peneliti dalam desain penelitian, kenyataannya pengumpulan data
adalah bahwa X yang dihasilkan hampir selalu tidak persis seperti yang diharapkan, karena
sebab-sebab a posteriori. “Masalah yang tidak terduga mungkin saja muncul saat percobaan
dilakukan. Misalnya, eksperimen dapat menghasilkan hasil yang tidak dapat diukur atau titik
eksperimen dapat menghasilkan 'outlier', yaitu pengamatan yang nilainya tampak tidak sesuai
dengan pola keseluruhan data” (Knett et al., 2006).
Oleh karena itu, metode peningkatan InfoQ pada tahap pengumpulan postdata dapat ditujukan
pada data sekunder, misalnya penyesuaian bias seleksi; pada data semisekunder, misalnya
meta-analisis; dan bahkan pada data primer, misalnya, menangani nilai yang hilang.
Data primer dapat menjadi data sekunder jika tujuan atau kegunaan penelitian direvisi atau
ketika tujuan sekunder tercapai. Sebuah konteks yang populer dalam praktiknya, namun jarang
dibahas dalam statistik atau literatur penambangan data dari sudut pandang kualitas informasi,
adalah kasus data primer dengan tujuan yang direvisi. Cox (2009) mencatat, “Tujuan dapat
didefinisikan ulang, diharapkan dapat ditingkatkan, dan terkadang diubah secara radikal seiring
berjalannya waktu.”
Demikian pula, Friedman dkk. (2015, hal. 182) berkomentar bahwa dalam uji klinis,
“Seseorang ingin mendapatkan jawaban atas beberapa pertanyaan, namun penelitian harus
dirancang dengan hanya memikirkan satu pertanyaan besar.” Oleh karena itu, sering kali
beberapa pertanyaan akan dijawab menggunakan data yang dikumpulkan melalui desain untuk
menjawab satu pertanyaan utama. Secara khusus, evaluasi efek samping merupakan hal yang
penting, namun bukan tujuan utama uji klinis. Hasilnya adalah “uji klinis memiliki keterbatasan
metodologis dalam mengevaluasi efek samping. Hal ini termasuk jumlah peserta yang tidak
memadai, durasi tindak lanjut, dan pemilihan peserta yang terbatas.”
Dalam contoh lain yang dibahas di Bab 4, Engel dkk. (2016) mempertimbangkan metode
desain yang kuat ketika agen degradasi mempengaruhi kinerja dari waktu ke waktu.
Dalam hal ini, menetapkan target yang tidak memperhitungkan perubahan persyaratan, jika
terealisasi, akan menyebabkan kegagalan. Karena perubahan tujuan ini belum diantisipasi
pada tahap desain, analisis a posteriori perlu mempertimbangkan perubahan spesifikasi desain.
Machine Translated by Google
Situasi umum lainnya di mana tujuan revisi muncul adalah dalam proses peninjauan artikel jurnal.
Dalam ilmu sosial dan ekonomi, pengulas biasanya meminta penulis menjawab pertanyaan penelitian
tambahan. Dalam beberapa kasus, tidak mungkin mengumpulkan data tambahan yang secara langsung
memiliki InfoQ tinggi untuk pertanyaan-pertanyaan baru ini, dan penulis terpaksa menggunakan data
yang ada dalam menjawab pertanyaan-pertanyaan baru.
Untuk informasi lebih lanjut mengenai proses peninjauan dan kualitas informasi yang harus dipastikan,
lihat Bab 12.
Contoh praktis yang dramatis dari data primer yang dikumpulkan melalui simulasi dengan tujuan
yang direvisi terkait dengan bencana pesawat ulang-alik Columbia. Badan Investigasi Kecelakaan
Columbia melaporkan bahwa program simulasi yang disebut CRATER digunakan untuk menganalisis
dampak puing-puing busa pada ubin pelindung pesawat ulang-alik. Simulasi tersebut memodelkan
dampak puing yang lebih kecil sebanyak 400 kali lipat dibandingkan dengan dampak yang ditimbulkan
pada pesawat ulang-alik saat lepas landas. Para insinyur yang mengembangkan CRATER telah keluar,
dan insinyur pengganti yang menggunakannya tidak menyadari dampak dari skala tersebut. Analisis
yang dilakukannya menunjukkan bahwa pesawat ulang-alik itu aman. Informasi yang keliru ini, dengan
InfoQ yang jelas rendah, mempunyai konsekuensi yang tragis (lihat www.nasa.gov/
Kolombia/caib).
Oleh karena itu, metode dan pendekatan yang dijelaskan pada bagian berikut ini relevan dengan
berbagai skenario data–tujuan–utilitas. Namun penerapannya spesifik pada tujuan dan kegunaan yang
diinginkan.
Sebaliknya, h(X|g) berfokus pada prosedur kualitas yang menghasilkan atau membersihkan X
tergantung pada tujuannya g. Salah satu contohnya adalah imputasi data statistik klasik (Little dan
Rubin, 2002; Fuchs dan Kenett, 2007), dimana jenis imputasi didasarkan pada
Machine Translated by Google
mekanisme pembuatan data yang diasumsikan hilang dan bergantung pada tujuan meminimalkan bias
(yang penting dalam studi penjelasan dan deskriptif).
Contoh lainnya adalah metode penanganan nilai prediktor yang hilang dalam penelitian dengan tujuan
prediktif oleh SaarÿTsechansky dan Provost (2007). Pendekatan mereka didasarkan pada beberapa
model prediktif dengan menggunakan subkumpulan prediktor yang berbeda dan kemudian menerapkan,
untuk setiap observasi baru, model yang mengecualikan prediktor yang hilang untuk observasi tersebut.
Contoh ketiga adalah algoritma akuisisi data yang dikembangkan oleh SaarÿTsechansky dkk. (2009)
untuk data dengan label respons yang hilang. Algoritme memilih nilai prediktor atau label respons yang
hilang untuk dikumpulkan, dengan mempertimbangkan tujuan prediksi (dengan mempertimbangkan
biaya dan kontribusi terhadap akurasi prediksi).
Mengumpulkan nilai yang tercatat adalah jenis pembersihan data lainnya, yang umum dilakukan
di industri farmasi. Pembulatan ke atas digunakan untuk mengatasi rendahnya
pengukuran resolusi dan meningkatkan kejelasan pelaporan. Kami membedakan perbedaan antara
pembulatan ke atas dan pemotongan, yang dibahas di Bagian 5.7. Ada variasi berbeda dalam
pembulatan. Misalnya, pembulatan ganda dilakukan jika suatu bilangan dibulatkan dua kali, pertama
dari n0 digit ke n1 digit, lalu dari n1
digit hingga n2 digit (di mana n0> n1> n2 .) Penghitungan dapat dilakukan pada bilangan antara
pembulatan pertama dan kedua. Contoh lainnya adalah pembulatan menengah, yaitu nilai yang
digunakan selama perhitungan dibulatkan sebelum hasil akhirnya diturunkan. Pembulatan data
kontinyu dilakukan untuk memperoleh nilai yang lebih mudah dilaporkan dan dikomunikasikan
dibandingkan aslinya. Hal ini juga digunakan untuk menghindari pelaporan pengukuran atau perkiraan
dengan sejumlah angka desimal yang tidak mencerminkan kemampuan pengukuran atau tidak memiliki
arti praktis, sebuah konsep yang dikenal sebagai presisi palsu.
Konvensi Farmakope AS (USP) menyatakan bahwa “Angka tidak boleh dibulatkan sampai
penghitungan akhir nilai yang dapat dilaporkan telah diselesaikan.”
Boreman dan Chatfield (2015) menunjukkan dengan contoh yang sangat meyakinkan bahwa, dari
sudut pandang teknis, selalu lebih baik bekerja dengan data yang tidak dibulatkan. Mereka
merekomendasikan agar data hanya dibulatkan bila diperlukan untuk tujuan pelaporan formal atau
akhir, yang biasanya ditentukan oleh format batas spesifikasi, yaitu jumlah desimal yang dikutip dalam
batas spesifikasi. Rekomendasi ini secara implisit mengacu pada dimensi komunikasi InfoQ dan
menunjukkan pentingnya membedakan antara kebutuhan perhitungan statistik dan presentasi hasil.
Strategi “pembersihan data” h(X|g) lainnya adalah deteksi dan penanganan outlier dan observasi
yang berpengaruh. Pilihan antara menghapus observasi tersebut, memasukkannya ke dalam analisis,
atau memodifikasinya bergantung pada tujuan.
Apakah pembersihan data selalu meningkatkan InfoQ? Untuk XÿX* kita mengharapkan
InfoQ( f,X,g,U) ÿInfoQ( f,X*,g,U). Dalam kebanyakan kasus, masalah kualitas data menurunkan
kemampuan mengekstraksi pengetahuan, sehingga menyebabkan InfoQ( f,X,g,U)<InfoQ( f,X*,g,U).
Nilai yang hilang dan nilai yang salah sering kali menambah gangguan pada sinyal sampel kami yang
terbatas. Namun, terkadang X* sama informatifnya atau bahkan lebih informatif daripada X ketika
mengondisikan tujuan, dan karenanya, memilih h(X)=X adalah optimal. Misalnya saja ketika tujuannya adalah untuk mem
Machine Translated by Google
hasil pengamatan baru dengan adanya seperangkat prediktor, nilai prediktor yang hilang dapat menjadi
berkah jika nilai tersebut cukup informatif mengenai hasilnya (Ding dan Simonoff, 2010). Contohnya
adalah terjadinya data yang hilang dalam laporan keuangan, yang dapat berguna untuk memprediksi
kecurangan pelaporan. Responden yang menolak untuk membocorkan data mengenai pendapatan
mereka mungkin lebih dapat dipercaya (yaitu, data yang hilang), sehingga fokus pada kovariat dalam entri
data yang hilang ini akan membedakan jenis pelaporan.
Bias seleksi akibat tidak adanya respons atau seleksi mandiri juga menimbulkan tantangan dalam
studi deskriptif yang tujuannya adalah untuk memperkirakan beberapa parameter (misalnya, proporsi
pemilih untuk suatu partai politik atau pendapatan rata-rata rumah tangga). Pendekatan umum yang
bertujuan untuk mengoreksi bias seleksi pada data, terutama pada data survei, adalah dengan melakukan
pembobotan ulang atau penyesuaian. Bobot dihitung berdasarkan keterwakilan yang kurang atau
berlebihan, sehingga observasi yang kurang terwakili dalam sampel mendapat bobot lebih besar dari 1
dan observasi yang terlalu terwakili mendapat bobot lebih kecil dari 1. Penghitungan bobot memerlukan
pengetahuan tentang rasio populasi yang relevan (atau perkiraannya). Misalnya, jika sampel kita terdiri
dari 80% laki-laki dan 20% perempuan, sedangkan populasinya memiliki jumlah laki-laki dan perempuan
yang sama, maka setiap laki-laki dalam sampel mendapat bobot 0,5/0,8=0,625 dan setiap perempuan
mendapat bobot 0,5 /0.2=2.5. Pendugaan rata-rata pendapatan penduduk kini dilakukan dengan
menggunakan rata-rata tertimbang masyarakat yang dijadikan sampel. Untuk pengujian yang mendeteksi
bias nonresponse, lihat Kenett dkk. (2012).
Penggunaan bobot bertujuan untuk mengurangi bias dengan mengorbankan peningkatan varians,
dalam upaya memaksimalkan mean squared error (MSE) dari estimator yang diinginkan. Dengan kata
lain, h(X) dipilih untuk memaksimalkan U[ f{h(X|g)}]=MSE. Namun, ada perbedaan pendapat di antara keduanya
Machine Translated by Google
ahli statistik survei mengenai kegunaan pembobotan ulang data, karena “estimator yang diberi
bobot dapat memberikan hasil yang sangat buruk, terutama pada sampel yang kecil” (Little, 2009).
Ketika tujuan analisis adalah memperkirakan parameter populasi dan f setara dengan estimasi,
maka penyesuaian terhadap bias estimator adalah hal biasa. Metodologi komprehensif untuk
menangani permasalahan tersebut disebut estimasi area kecil (Pfeffermann, 2013).
Dalam contoh surplus konsumen eBay (Bagian 1.4), Bapna dkk. mengusulkan penaksir
surplus konsumen yang bias-koreksi dalam lelang nilai umum (di mana barang yang dilelang
memiliki nilai yang sama untuk semua penawar), yang didasarkan pada penawaran tertinggi.
5.5 Meta-analisis
Meta-analisis adalah metodologi statistik yang dikembangkan untuk merangkum dan
membandingkan hasil antar penelitian. Ini terdiri dari sejumlah besar alat di mana studi individu
adalah unit eksperimen. Dalam meta-analisis, “data” mengacu pada hasil statistik dari serangkaian
penelitian sebelumnya yang menyelidiki pertanyaan penelitian yang sama.
Metodologi statistik kemudian digunakan untuk menggabungkan hasil studi yang berbeda untuk
memperoleh hasil yang lebih tepat dan dapat diandalkan, yaitu untuk meningkatkan InfoQ.
Penyebab-penyebab selanjutnya yang menurunkan InfoQ mencakup bias “laci file”, yaitu studi
yang tidak menemukan dampaknya tetap tidak dipublikasikan dan tidak dimasukkan ke dalam
meta-analisis; bias yang didorong oleh agenda, yaitu peneliti dengan sengaja memilih serangkaian
penelitian yang tidak representatif untuk dimasukkan ke dalam analisis; dan ketidaksadaran akan
paradoks Simpson, yang muncul karena agregasi penelitian. Meta-analisis terdiri dari
mengidentifikasi semua bukti pada topik tertentu dan menggabungkan hasil studi tunggal untuk
memberikan ringkasan perkiraan kuantitatif hubungan kepentingan, yang umumnya merupakan
rata-rata tertimbang dari perkiraan studi individu. Kuantifikasi dan penyelidikan sumber heterogenitas
juga merupakan bagian dari proses tersebut. Meta-analisis pertama kali dikembangkan dengan
tujuan merangkum hasil uji klinis untuk menilai kemanjuran/efektivitas pengobatan yang diberikan.
Namun penggunaannya telah diperluas ke epidemiologi observasional dan situasi lainnya, dan
meta-analisis data kualitatif juga telah diusulkan (DixonÿWoods et al., 2005).
Pilihan ukuran dampak yang mewakili hasil masing-masing penelitian bergantung pada data
yang tersedia dalam penelitian tersebut, pertanyaan penelitian yang diselidiki, dan sifat-sifat
ukuran yang mungkin dievaluasi dalam konteks lingkungan penelitian tertentu. Metode untuk
memperoleh perkiraan ringkasan secara garis besar dibagi menjadi model efek tetap dan model
efek acak. Yang pertama berasumsi bahwa semua penelitian mengukur dampak yang sama,
sedangkan yang kedua berasumsi bahwa penelitian mengukur efek yang berbeda dan
mempertimbangkan variasi antar penelitian. Di antara metode efek tetap yang paling banyak
digunakan adalah metode varians terbalik dan, untuk hasil biner, metode Mantel–Haenszel dan
Peto. Komponen mendasar dalam meta-analisis adalah mengukur heterogenitas antar penelitian
dengan menyelidiki sumbernya.
Hal ini dapat dicapai dengan membentuk kelompok penelitian berdasarkan karakteristik tertentu
dan membandingkan varians di dalam dan antar kelompok. Meta-regresi menyelidiki apakah ada
hubungan linier antara ukuran hasil dan satu atau lebih kovariat (Negri, 2012).
Machine Translated by Google
Saat melakukan meta-analisis, tujuannya bukan sekadar menghitung perkiraan gabungan. Untuk
mencapai kualitas informasi, aspek-aspek tambahan dari bukti yang tersedia untuk evaluasi harus
dipertimbangkan, seperti kualitas penelitian yang disertakan dan oleh karena itu kecukupannya untuk
memberikan informasi mengenai isu yang diselidiki, konsistensi hasil di seluruh penelitian, dan bukti-bukti
yang ada. bias publikasi.
Setelah penelitian diidentifikasi dan diambil, data yang diperlukan untuk melakukan meta-analisis harus
diambil dari publikasi. Hal ini dapat mencakup informasi mengenai desain penelitian, populasi penelitian,
jumlah subjek dalam kategori paparan/hasil, metode statistik, dan sebagainya. Jelasnya, data yang diekstraksi
bergantung pada ukuran dampak yang dipilih. Karakteristik lain yang akan digunakan dalam analisis
subkelompok penelitian, serta indikator kualitas penelitian dan variabel lain yang mungkin penting untuk
menggambarkan penelitian (misalnya lokasi, tingkat respons) juga perlu dicatat. Ekstraksi data dari studi
individual merupakan langkah penting lainnya, dimana masalah yang tidak terduga sering kali muncul.
Kesalahan dalam artikel yang dipublikasikan cukup umum terjadi, dan terkadang penelitian yang memenuhi
kriteria inklusi harus dikeluarkan karena data dalam tabel tidak konsisten. Ekstraksi data dalam meta-analisis
merupakan contoh analisis posteriori data sekunder.
Untuk menangani masalah a posteriori ini dan menjembatani kesenjangan antara X dan X*, Kenett dkk.
(2006) mengusulkan penerapan metode bootstrap untuk menangani data yang hilang dan memvalidasi model
yang digunakan untuk menyesuaikan data.
Ketika suatu model salah ditentukan, dikatakan telah terjadi kesalahan jenis ketiga.
Bootstrapping dapat digunakan untuk menandai kesalahan jenis ketiga atau, sebagai alternatif, memvalidasi a
Machine Translated by Google
model tertentu. Penggunaan model yang tidak memadai sering kali menyebabkan estimasi varians residu
yang berlebihan dan meningkatkan kesalahan standar untuk parameter model.
Oleh karena itu, perbandingan kesalahan standar bootstrap dengan kesalahan yang berasal dari analisis
model regresi merupakan diagnostik yang berharga. Jika kesalahan standar bootstrap jelas lebih kecil
dibandingkan kesalahan saat menyesuaikan model regresi dengan data eksperimen, kemungkinan besar
model tersebut tidak memadai.
Strategi analisis data eksperimen umum dengan bootstrapping diusulkan
oleh Kenett dkk. (2006) melibatkan enam langkah:
1. Evaluasi kondisi eksperimen termasuk identifikasi batasan eksperimen dan batasan a posteriori
yang tidak direncanakan dalam desain eksperimen awal. Kendala-kendala ini tercermin dari tidak
adanya atau adanya tambahan percobaan, kendala pada pengaturan tingkat faktor, atau masalah
pengacakan dan run-order.
2. Desain strategi bootstrap. Hal ini melibatkan penentuan model matematika dasar yang digunakan
dalam analisis data dan algoritma bootstrapping yang cocok dengan pengaturan eksperimental.
3. Analisis bootstrap. Ini adalah langkah berulang di mana uji coba awal data sampel ulang dievaluasi
menggunakan sebagian besar tampilan grafis untuk memvalidasi keakuratan algoritme bootstrap.
4. Kesesuaian data menggunakan regresi diikuti dengan perhitungan standard error dari model
regresi dan distribusi bootstrap secara empiris.
Keenam langkah ini adalah contoh bagaimana kualitas informasi dapat ditingkatkan dengan analisis
posteriori.
Dalam bidang yang pengukuran kepentingannya adalah durasi, penyebab a posteriori yang umum adalah
penyensoran data. Kedokteran dan rekayasa keandalan adalah dua bidang di mana para peneliti tertarik
pada kelangsungan hidup atau waktu menuju kegagalan. Penyedia telekomunikasi tertarik dengan masa
hidup pelanggan (sebelum pindah ke operator lain atau churn), pendidik melacak alasan putus sekolah,
dan manajer risiko mencoba mengidentifikasi pola pembayaran pinjaman yang gagal. Dalam semua
kasus, seseorang berurusan dengan kelangsungan hidup – dan sensor –
mengetik data.
Machine Translated by Google
Pengamatan yang disensor adalah pengamatan yang hanya mengamati sebagian durasi
yang diinginkan—misalnya, jika kita mengukur waktu hingga kegagalan (kelangsungan hidup)
suatu komponen, maka komponen yang disensor adalah komponen yang tidak mengamati waktu
kegagalannya. Oleh karena itu, kami memiliki sebagian informasi X, bukan X*: kami hanya
mengetahui bahwa komponen tersebut bertahan setidaknya selama durasi pengumpulan data.
Jika kita mengamati “kelahiran” tetapi bukan “kematian” observasi, maka disebut sensor kanan,
karena kita tidak mengamati peristiwa yang menarik (kegagalan) pada akhir periode pengumpulan
data. Sensor kanan paling sering terjadi ketika penelitian mempunyai waktu akhir pengumpulan
yang telah ditentukan, yang mana pada saat itu semua pengamatan yang tidak gagal akan
disensor dengan benar. Skenario pengumpulan data lain yang mengarah pada data tersensor
kanan adalah ketika peneliti menetapkan sejumlah observasi “gagal” untuk dikumpulkan dan
menghentikan pengumpulan ketika ukuran sampel tercapai. Pada saat itu, observasi yang tersisa akan disens
Dua jenis sensor lainnya adalah sensor kiri dan sensor interval. Pada sensor kiri, observasi
memang gagal selama periode pengumpulan data, namun durasi minat dimulai sebelum
dimulainya pengumpulan data, misalnya saat kita tidak mengetahui kapan komponen yang diamati
mulai bekerja. Dalam penyensoran interval, kita tidak mengamati waktu mulai atau berakhirnya
pengamatan, tetapi kita mengetahui bahwa selama masa pengumpulan data, pengamatan tidak
gagal. Hal ini terjadi, misalnya, ketika kita melacak komponen sistem perangkat lunak setiap
minggu dengan kegagalan yang dikumpulkan, tanpa informasi mengenai waktu kegagalannya.
Gambar 5.1 mengilustrasikan ketiga jenis penyensoran ini.
Jenis data parsial lainnya yang berbeda adalah hasil pemotongan. Pemotongan terjadi ketika
kita tidak dapat mengamati pengukuran yang melebihi atau di bawah ambang batas (atau interval).
Misalnya, seseorang tidak dapat mengukur suhu tubuh lebih rendah atau lebih tinggi dari yang
tersedia pada termometer. Dalam industri farmasi, banyak ditemukan contoh pengukuran yang
dipengaruhi oleh batas kuantifikasi (LoQ) dari sistem pengukuran. Berbeda dengan sensor yang
merupakan bentuk pembatasan deteksi
Tidak disensor
Disensor kiri
Interval disensor
Belajar Belajar
awal akhir
Gambar 5.1 Ilustrasi sensor kanan, kiri, dan interval. Setiap baris menunjukkan masa observasi.
Machine Translated by Google
(LoD), kami tidak memiliki informasi tentang pengamatan yang melebihi ambang batas.
Dengan kata lain, meskipun penyensoran beroperasi pada durasi (pengamatan yang melebihi
durasi pengumpulan data akan disensor), pemotongan akan memengaruhi besaran pengukuran
(besarnya yang melebihi atau sebelum rentang/nilai yang memungkinkan tidak diamati). Dalam
beberapa hal, penyensoran adalah masalah data yang hilang, sementara pemotongan berpotensi
menimbulkan bias dalam penduga statistik. Secara umum, batas deteksi suatu prosedur analitis
adalah jumlah terendah analit dalam suatu sampel yang dapat dideteksi tetapi belum tentu diukur
sebagai nilai yang tepat sehingga LoD mewakili suatu jenis penyensoran. Sebaliknya, batas
kuantifikasi suatu prosedur analitik individual adalah jumlah analit terendah dalam suatu sampel
yang dapat ditentukan secara kuantitatif dengan presisi dan akurasi yang sesuai. LoQ adalah
parameter pengujian kuantitatif untuk senyawa tingkat rendah dalam matriks sampel dan
digunakan khususnya untuk penentuan pengotor dan/atau produk degradasi. Dalam praktiknya,
ini adalah bentuk pemotongan.
Berbagai model statistik tersedia untuk data yang disensor dan terpotong. Karena penyebab
a posteriori berbeda dalam penyensoran dan pemotongan, maka pendekatan statistiknya pun
berbeda. Dalam model untuk data yang disensor, data lengkap dan data yang disensor
dimodelkan bersama-sama, menggunakan fungsi distribusi kumulatif F(t)=P(Tÿ t), atau fungsi
survival S(t)=1ÿF(t)= P(T>t), dimana t menunjukkan waktu. Model populer untuk data yang
disensor adalah penduga nonparametrik Kaplan – Meier, model regresi semiparametrik Cox,
dan model regresi parametrik Weibull. Untuk informasi lebih lanjut mengenai topik ini, lihat
Mandel (2007).
Kami mencatat bahwa pilihan model yang disensor ( f) harus bergantung pada tujuan.
Misalnya, meskipun model semiparametrik Cox dapat berguna untuk model deskriptif, seperti
memperkirakan tingkat kelangsungan hidup suatu populasi yang diteliti, model ini tidak berguna
untuk memprediksi kelangsungan hidup observasi baru yang waktu kelangsungan hidupnya lebih
lama daripada periode pengumpulan data dari yang modelnya diperkirakan (Yahav dan Shmueli,
2014). Sebaliknya, untuk data terpotong seseorang menggunakan model parametrik yang
bergantung pada rentang pemotongan.
5.8 Ringkasan
Dalam bab ini kami menjelaskan beberapa penyebab umum a posteriori yang berpotensi
memperburuk InfoQ, karena tantangan dalam tahap pengumpulan data. Kami juga mendiskusikan
pendekatan statistik utama untuk mengatasi penyebab-penyebab tersebut. Pendekatannya
berkisar dari penggunaan data saja untuk memperhitungkan korupsi (operasi tipe MIS, imputasi
data sederhana) hingga metode yang menggabungkan informasi dari berbagai sumber (meta-
analisis) atau sumber eksternal (bobot) hingga menggabungkan model stokastik (misalnya ,
model bertahan hidup) untuk “memulihkan” proses asli yang menghasilkan data. Tabel 5.1
merangkum poin-poin utama. Mengambil pendekatan InfoQ membantu peneliti atau analis
memilih metode yang tepat di antara berbagai kemungkinan. Meskipun pembobotan ulang
mungkin berguna untuk beberapa tujuan dan analisis, hal ini mungkin tidak berguna untuk tujuan
(atau metode analisis) lainnya. Demikian pula, apakah dan bagaimana memasukkan data harus
bergantung pada tujuan penelitian dan metode analisis yang dimaksudkan . f.
Machine Translated by Google
Tabel 5.1 Strategi statistik untuk meningkatkan InfoQ berdasarkan penyebab posteriori pada tahap
pengumpulan pascadata dan pendekatan untuk meningkatkan InfoQ.
Referensi
Boreman, P. dan Chatfield, M. (2015) Hindari bahaya penggunaan data bulat. Jurnal Analisis Farmasi
dan Biomedis, 115, hlm.502–508.
Boslaugh, S. (2007) Sumber Data Sekunder Kesehatan Masyarakat: Panduan Praktis. Cambridge
University Press, Cambridge, Inggris.
Cox, DR (2009) Pengacakan dalam desain percobaan. Tinjauan Statistik Internasional, 77, 415–429.
Ding, Y. dan Simonoff, J. (2010) Investigasi metode data yang hilang untuk pohon klasifikasi yang
diterapkan pada data respons biner. Jurnal Penelitian Pembelajaran Mesin, 11, hlm.131–170.
Machine Translated by Google
DixonÿWoods, M., Agarwal, S., Jones, D., Sutton, A., Young, B., DixonÿWoods, M., Agarwal, S., Jones,
D. dan Young, B. (2005 ) Mensintesis bukti kualitatif dan kuantitatif: tinjauan metode yang mungkin.
Jurnal Penelitian & Kebijakan Pelayanan Kesehatan, 10, hlm.45–53.
Engel, A., Kenett, RS, Shahar, S. dan Reich, Y. (2016) Mengoptimalkan Desain Sistem di Bawah Agen
Kegagalan yang Menurun. Prosiding Simposium Internasional Model Stokastik dalam Rekayasa
Keandalan, Ilmu Hayati dan Manajemen Operasi (SMRLO16), Beer Sheva, Israel.
Friedman, LM, Furberg, CD, DeMets, D., Reboussin, DM dan Granger, CB (2015)
Dasar-dasar Uji Klinis, edisi ke-5. Penerbitan Internasional Springer, Cham.
Fuchs, C. dan Kenett, RS (2007) Data Hilang dan Imputasi, dalam Ensiklopedia Statistik Kualitas dan
Keandalan, Ruggeri, F., Kenett, RS dan Faltin, F. (pemimpin redaksi), John Wiley & Sons, Ltd ,
Chichester, Inggris.
Godfrey, AB (2008) Memperhatikan kualitas data. Majalah Six Sigma Forum, 8, hlm.5–6.
Hand, DJ (2008) Statistik: Pengantar yang Sangat Singkat. Pers Universitas Oxford, Oxford.
Heckman, JJ (1979) Bias pemilihan sampel sebagai kesalahan spesifikasi. Econometrica: Jurnal
Masyarakat Ekonometrika, 47, hlm.153–161.
Kenett, RS, Rahav, E. dan Steinberg, D. (2006) Analisis bootstrap dari eksperimen yang dirancang.
Rekayasa Kualitas dan Keandalan Internasional, 22, hlm.659–667.
Kenett, RS, Deldossi, L. dan Zappa, D. (2012) Standar Kualitas dan Bagan Kendali yang Diterapkan
pada Survei Pelanggan, dalam Analisis Modern Survei Kepuasan Pelanggan, Kenett, RS dan Salini,
S. (editor), John Wiley & Sons , Ltd, Chichester, Inggris.
Little, R. (2009) Pembobotan dan Prediksi dalam Survei Sampel. Kertas Kerja 81. Departemen
Biostatistik, Universitas Michigan, Ann Arbor.
Little, RJA dan Rubin, DB (2002) Analisis Statistik dengan Data Hilang. John Wiley & Sons, Inc., New
York.
Mandel, M. (2007) Sensor dan pemotongan – menyoroti perbedaannya. Orang Amerika
Ahli Statistik, 61(4), hlm.321–324.
Negri, E. (2012) Meta-Analysis, dalam Metode Statistik dalam Layanan Kesehatan, Faltin, F., Kenett, RS
dan Ruggeri, F. (editor), John Wiley & Sons, Ltd, Chichester, UK.
Pfeffermann, D. (2013). Perkembangan penting baru dalam estimasi area kecil. Statistik
Sains, 28, hlm.40–68.
Redman, T. (2007) Statistik dalam Kualitas Data dan Informasi, dalam Ensiklopedia Statistik dalam
Kualitas dan Keandalan, Ruggeri, F., Kenett, RS dan Faltin, F. (pemimpin redaksi), John Wiley &
Sons, Ltd, Chichester , Inggris.
Rosenbaum, PR, dan Rubin, DB (1983) Peran sentral skor kecenderungan dalam
studi observasional untuk efek sebab akibat. Biometrika, 70 (1), hlm.41–55.
SaarÿTsechansky, M. dan Provost, F. (2007) Menangani fitur yang hilang saat menerapkan model
klasifikasi. Jurnal Penelitian Pembelajaran Mesin, 8, hlm.1625–1657.
SaarÿTsechansky, M., Melville, P. dan Provost, F. (2009) Akuisisi nilai fitur aktif.
Ilmu Manajemen, 55, hlm.664–684.
Yahav, I. dan Shmueli, G. (2014) Hasil penting: memperkirakan tingkat kelangsungan hidup pasien
transplantasi ginjal sebelum transplantasi menggunakan skor kecenderungan berbasis simulator.
Sejarah Riset Operasi, 216(1), hlm.101–128.
Machine Translated by Google
Bagian II
Aplikasi InfoQ
Machine Translated by Google
Machine Translated by Google
Pendidikan
6.1 Pendahuluan
Pendidikan adalah salah satu instrumen paling ampuh untuk mengurangi kemiskinan dan kesenjangan
dalam masyarakat dan meletakkan dasar bagi pertumbuhan ekonomi yang berkelanjutan. Sasaran
pembangunan milenium kedua Bank Dunia adalah mencapai pendidikan dasar universal pada tahun
2015 (www.worldbank.org/mdgs/education.html). Dalam konteks ini, Bank Dunia mengumpulkan data
mengenai masukan, partisipasi, efisiensi, dan hasil pendidikan dari tanggapan resmi terhadap survei
dan dari laporan yang diberikan oleh otoritas pendidikan di setiap negara. Dasbor Indikator Utama
Pendidikan
menyajikan potret global sistem pendidikan, mulai dari pendidikan dasar hingga pendidikan tinggi.
EdStats All Indicator Query Bank Dunia berisi sekitar 2500 indikator yang sebanding secara internasional
yang menggambarkan akses pendidikan, kemajuan, penyelesaian, melek huruf, guru, populasi, dan
pengeluaran (http://datatopics.worldbank.org/
pendidikan). Indikatornya mencakup siklus pendidikan mulai dari pendidikan dasar hingga pendidikan
kejuruan dan pendidikan tinggi. Basis data ini juga mencakup data hasil pembelajaran dari penilaian
pembelajaran internasional dan regional (misalnya PISA, PIACC), data ekuitas dari survei rumah tangga,
dan data proyeksi/pencapaian hingga tahun 2050. Beberapa indikator kualitas dilacak dan dilaporkan
termasuk tingkat pengulangan, tingkat penyelesaian sekolah dasar, murid-
rasio guru, dan tingkat melek huruf orang dewasa. Laporan yang tersedia saat ini mengandalkan lebih
dari 2000 indikator kualitas yang dirancang untuk menjawab pertanyaan spesifik seperti berikut:
© 2017 John Wiley & Sons, Ltd. Diterbitkan 2017 oleh John Wiley & Sons, Ltd.
Situs web pendamping: www.wiley.com/go/information_quality
Machine Translated by Google
82 Pendidikan
• Apakah perempuan lebih sering mengulang kelas di sekolah dasar dibandingkan laki-laki?
• Negara manakah yang memiliki tingkat melek huruf orang dewasa paling rendah?
• Apakah tingkat melek huruf orang dewasa setara antara laki-laki dan perempuan?
• Apakah kesenjangan gender dalam tingkat melek huruf menurun seiring berjalannya waktu?
Data yang dijelaskan sebelumnya, X, dianalisis dengan metode f untuk memenuhi tujuan, g, yang tersirat dalam pertanyaan-
pertanyaan ini. Fungsi utilitas, U, dapat mencerminkan kebutuhan berbagai pemangku kepentingan termasuk orang tua, guru, dan
pembuat kebijakan. Informasi yang diberikan oleh berbagai laporan resmi untuk menjawab pertanyaan-pertanyaan yang disebutkan
sebelumnya sebagian besar bersifat deskriptif dan bergantung pada kompilasi berbagai sumber data dengan tingkat pengendalian
kualitas dan kualitas data yang berbeda-beda. Menilai tingkat kualitas informasi (InfoQ) dari laporan-laporan ini, sehubungan dengan
masing-masing pertanyaan sebelumnya, akan memberikan skor rendah pada integrasi data, relevansi temporal, serta kronologi data
dan tujuan. Pernyataan ini didasarkan pada kenyataan bahwa indikator-indikator dipertimbangkan secara terpisah, data diberi
tanggal, dan pengambil keputusan yang tertarik untuk membentuk kebijakan dengan dukungan data tersebut mengalami kesenjangan
antara data yang dilaporkan dan tujuan mereka sebagai manajer atau anggota parlemen.
Dalam bab ini, kami mempertimbangkan secara rinci tiga bidang penerapan terkait pendidikan.
Aplikasi pertama difokuskan pada industri pelaporan pengujian ekstensif di Amerika Serikat. Setelah memberikan konteks umum
berdasarkan pekerjaan yang dilakukan pada Penilaian Kemajuan Pendidikan Nasional (NAEP), pembuat rapor nasional di Amerika
Serikat (http://nces.ed.gov/nationsreportcard), kami mengevaluasi tingkat InfoQ dari laporan Missouri Assessment Program (MAP).
Contoh kedua menafsirkan pernyataan ASA tentang model nilai tambah pendidikan (VAM) menggunakan dimensi InfoQ. Contoh
ketiga mengenai penilaian pemahaman konseptual atau “pemahaman mendalam” dengan menggunakan Meaning Equivalence
Reusable Learning Objects (MERLO). Contoh ini didasarkan pada penerapan MERLO dalam program penilaian yang sedang
Di Amerika Serikat, lebih dari 60.000.000 laporan individu dikirim setiap tahunnya kepada orang tua anak sekolah. 6000000 laporan
lainnya dihasilkan di Kanada. Lebih dari 1000 ujian kredensial (misalnya sekuritas, akuntan, perawat) seringkali melebihi 100.000
Machine Translated by Google
Pendidikan 83
kandidat. Masyarakat, pendidik, pengambil kebijakan, orang tua, dan peserta ujian ingin memahami skor dan
laporan skor. Jenis pertanyaan yang diajukan oleh berbagai pemangku kepentingan berdasarkan laporan
tersebut adalah sebagai berikut:
• Apakah anak saya mencapai kemajuan sebesar satu tahun dalam setahun?
• Apakah anak saya tumbuh dengan baik dan memenuhi standar negara?
• Apakah pertumbuhan anak saya dalam matematika sama pesatnya dengan membaca?
• Apakah pertumbuhan anak saya tahun ini sama besarnya dengan tahun lalu?
2. Pertanyaan guru:
• Apakah siswa saya mencapai kemajuan selama satu tahun dalam satu tahun?
• Apakah siswa saya tumbuh dengan baik dalam memenuhi standar negara?
• Apakah ada siswa dengan pertumbuhan sangat rendah yang memerlukan perhatian khusus?
3. Pertanyaan administrator:
• Apakah siswa kita tumbuh dengan baik untuk memenuhi standar negara?
• Apakah sekolah/program ini menunjukkan pertumbuhan yang sama besarnya dengan sekolah/program lain (yang spesifik)?
• Dapatkah saya mengukur pertumbuhan siswa bahkan untuk siswa yang tidak mengubah kategori
kemahiran?
• Dapatkah saya menggabungkan hasil dari nilai yang berbeda untuk membuat ringkasan
kesimpulan?
Investasi waktu dan uang yang cukup besar telah dilakukan untuk mengatasi program pengujian yang
menghasilkan laporan siswa di berbagai tingkat agregasi. Bidang pengujian penuh dengan para ahli yang
mengerjakan aplikasi teori respons item (IRT), penilaian data kinerja, perbandingan skor tes, estimasi keandalan,
dan masalah pengendalian kualitas seperti deteksi kecurangan dan kemajuan teknologi komputer.
Kekurangan laporan siswa tersebut dilaporkan dalam Goodman dan Hambleton (2004) dan meliputi:
• Tidak ada tujuan yang jelas, tidak ada petunjuk tentang di mana harus mulai membaca.
84 Pendidikan
• Font sering kali terlalu kecil sehingga sulit dibaca dengan mudah.
• Beberapa istilah yang tidak ditentukan pada tampilan: persentil, skor z , tingkat pencapaian,
dan banyak lagi.
Untuk meningkatkan laporan pengujian, beberapa standar telah dikembangkan. Misalnya, standar pengujian
AERA–APA–NCME menyatakan:
Ketika informasi skor tes dirilis….mereka yang bertanggung jawab harus memberikan interpretasi
yang tepat….informasi diperlukan tentang cakupan konten, arti skor, ketepatan skor, kesalahan
interpretasi yang umum, dan penggunaan yang tepat.…Laporan skor harus disertai dengan a
pernyataan yang jelas tentang tingkat kesalahan pengukuran yang terkait dengan setiap skor
atau tingkat klasifikasi dan informasi tentang cara menafsirkan skor (http://teststandards.org).
Sebagai contoh nyata penerapan InfoQ untuk menjawab pertanyaan tertentu menggunakan laporan sekolah
(data), perhatikan laporan tes MAP siswa kelas 8 Sara Armstrong yang disajikan pada Gambar 6.1. Laporan
skor tidak mudah diikuti. Ada beberapa skala dan laporan ini tidak menceritakan cerita logis dari titik A ke titik D.
Laporan ini digunakan sebagai referensi dalam konferensi orang tua-guru dan untuk perencanaan pembelajaran,
dan kualitas informasi yang diberikan oleh laporan ini mempunyai konsekuensi penting. . Untuk informasi lebih
lanjut tentang MAP, lihat http://dese.mo.gov/collegeÿcareerÿreadiness/
penilaian/tingkat kelas/peta-informasi-orang tua. Kami akan meninjau delapan dimensi InfoQ laporan ini di akhir
bagian ini.
Beberapa hal yang perlu dipertimbangkan dalam merancang laporan pengujian meliputi:
2. Informasi normatif atau informasi yang mengacu pada kriteria (atau keduanya) dapat diberikan.
3. Kalau normatif, siapa yang termasuk dalam kelompok acuan: semua, lewat saja, semua lewat, pertamaÿ
pencatat waktu?
Laporan SAT Skills Insight terkait tersedia di www.collegeboard.com sebagai alat online gratis yang membantu
siswa menempatkan keterampilan mereka pada peta dengan membantu mereka memahami apa yang mereka
ketahui dan apa yang perlu mereka ketahui lebih baik. Gambar 6.2 menyajikan contoh laporan tersebut, dengan
memperbesar skor 500–590 dalam pembacaan kritis. Kami menyajikannya berbeda dengan laporan MAP pada
Gambar 6.1. Sebagai contoh, perhatikan pembacaan SAT dan
Machine Translated by Google
Penilaian
A
Program Skor Skala: 710
(PETA) Ahli 400 500 600 700 800 900 999
Standar Isi/Pengetahuan # %
B
Laporan Siswa Deskripsi Tingkat Prestasi Membaca Tingkat
(Untaian Harapan Tingkat Kelas)
Siswa akan memiliki dasar yang kuat
poin poin
yang mungkindiperoleh
15 63
Lanjut-Siswa 1. berbicara dan menulis Bahasa Inggris Standar (termasuk
SARA ARMSTRONG tata bahasa, penggunaan, tanda baca, ejaan, kapitalisasi)
menganalisis informasi yang kompleks, tujuan penulis, karakter;
mensintesis Informasi; merangkum ide-ide kompleks; membuat 2. membaca dan menilai fiksi, puisi, dan drama 19 65
Kelas 8 kesimpulan yang rumit. Menulis-Siswa mengedit teks dengan benar
dengan menerapkan aturan/ketentuan Bahasa Inggris Standar.
3. membaca dan mengevaluasi karya dan materi nonfiksi 34 75
Kisaran skor MAP: 723–875. 4. menulis secara formal (seperti laporan, narasi, esai) dan TIDAK
Siswa Mahir
Laporan ini memberikan informasi
Membaca-Siswa Meringkas; menyimpulkan makna kosa kata dan
tentang kinerja Program Penilaian
sebab/akibat; menafsirkan bahasa kiasan; menganalisis fitur teks; ikuti
Missouri. Ini menggambarkan
petunjuk multi-langkah; mengidentifikasi teknik penulis; menganalisis teks;
kinerja dalam empat tingkat pencapaian
membuat kesimpulan, interpretasi, prediksi, perbandingan, menggunakan
di bidang konten. Ini digunakan untuk
materi yang kompleks; mengevaluasi bukti, keandalan sumber daya.
perencanaan pembelajaran, sebagai Menulis-Siswa mengedit untuk rincian dan tujuan yang relevan; mengatur dan
titik acuan selama konferensi mengedit teks; konsisten menggunakan aturan/konvensi standar bahasa Inggris.
orang tua-guru, dan untuk pencatatan permanen.
Kisaran skor MAP: 696-722.
Bacaan
Dasar -Siswa mendefinisikan kosa kata sederhana; mengidentifikasi gagasan
utama; menarik kesimpulan sederhana; membuat kesimpulan sederhana;
# %
mengingat detail dari teks; menentukan keandalan sumber daya. Siswa Menulis
Standar Proses/Kinerja
Menulis paragraf untuk audiens tertentu C poin poin
Siswa akan mendemonstrasikan kemampuannya dalam bidang konten yang mungkinyang diperoleh
Tanggal lahir: 23/06/93 Dasar -Siswa mengidentifikasi tujuan penulis, bahasa kiasan, alur cerita, Sasaran 2 - Berkomunikasi secara efektif
dan latar; gunakan petunjuk konteks untuk memilih kosakata. Menulis-
Standar 2 - merevisi komunikasi 15 60
Siswa membuat pengatur grafis; menulis paragraf dasar;
menunjukkan kesadaran penonton.
Sasaran 3 - Mengenali & memecahkan masalah
KODE : 048-078-2589
Tingkat pencapaian menunjukkan bahwa anak Anda dapat melakukan sebagian Persentil Nasional TerraNova : 64 Skor Lexile: 1234 TerraNova adalah
Sekolah: LEMBAH PINUS
besar dari apa yang dijelaskan untuk tingkat tersebut dan bahkan lebih dari apa yang
Distrik: SUNGAI BESAR tes pilihan ganda. Dalam Membaca, siswa Anda D
dijelaskan untuk tingkat di bawahnya. Anak Anda mungkin juga mampu melakukan mendapat nilai lebih baik dari 64 persen siswa di negara tersebut.
Negara Bagian: MISSOURI
beberapa kompetensi yang dijelaskan pada tingkat berikutnya yang lebih tinggi, namun
tidak cukup untuk mencapai tingkat kinerja tersebut. Lexile Framework for Reading merupakan skala membaca yang mempertemukan
Kota/Negara Bagian: DI MANA SAJA, MO
kemampuan pembaca dengan bahan bacaan yang sesuai. Lihat lampiran untuk
informasi lebih lanjut.
18/05/07
Gambar 6.1 Laporan tes Program Penilaian Missouri untuk siswa fiksi Sara Armstrong. Sumber:
http:// dese.mo.gov. © Departemen Pendidikan Dasar dan Menengah Missouri.
Machine Translated by Google
86 Pendidikan
Gambar 6.2 Keterampilan Membaca Kritis SAT. Sumber: https:// sat.collegeboard.org/ home. ©
Dewan Perguruan Tinggi.
menulis informasi diagnostik laporan: “Untuk meningkatkan kinerja dalam MEMBACA, anak
Anda harus berusaha 1) menarik kesimpulan tentang gagasan utama dalam sebuah teks, 2)
memahami teknik dan keputusan penulis, dan 3) membuat, mendukung, dan memperluas
kesimpulan tentang isi, peristiwa, tokoh, latar, tema, dan gaya. Untuk meningkatkan kinerja
dalam MENULIS, anak Anda harus berupaya 1) mengatur tulisan berdasarkan satu topik atau
gagasan utama, 2) berupaya menghindari kesalahan dalam konvensi penggunaan, tata
bahasa, ejaan, dan tanda baca bahasa Inggris yang mengganggu pemahaman dan 3 )
mendukung gagasan dengan rincian yang lebih spesifik.”
Instruksi ini memberikan informasi InfoQ yang lebih tinggi daripada laporan MAP.
Goodman dan Hambleton (2004) menunjukkan masalah utama dalam pelaporan skor
seperti memberikan penjelasan yang rumit. Perhatikan, misalnya, catatan kaki berikut dari
laporan NAEP: “Perbandingan antar negara bagian memperhitungkan kesalahan pengambilan
sampel dan pengukuran dan bahwa setiap negara bagian dibandingkan dengan negara bagian
lainnya. Signifikansi ditentukan oleh penerapan prosedur Bonferroni
Machine Translated by Google
Pendidikan 87
berdasarkan 946 perbandingan dengan membandingkan selisih antara dua mean dengan empat kali
akar kuadrat dari jumlah kesalahan standar kuadrat.”
Potensi kendala lain yang disebutkan oleh Goodman dan Hambleton (2004) mencakup ukuran font yang
kecil, catatan kaki yang tidak jelas, akronim yang tidak dieja, halaman yang berantakan, tidak menunjukkan
ketepatan skor, tidak mendefinisikan istilah-istilah kunci, penggunaan jargon, dan grafik yang dirancang dengan buruk.
Dengan latar belakang desain laporan pengujian ini, mari kita perhatikan laporan MAP yang
ditampilkan pada Gambar 6.1 dari lensa InfoQ. Kita mulai dengan mengidentifikasi empat komponen
InfoQ dan kemudian memeriksa masing-masing dari delapan dimensi InfoQ.
komponen InfoQ
Sasaran (g): Sebagai contoh, pertanyaan orang tua: “Apakah anak saya tumbuh sesuai
tepat untuk memenuhi standar negara?”
Data (X): Hasil tes anak pada tahun berjalan
Analisis (f): Laporan MAP ditampilkan pada Gambar 6.1
Utilitas (U): Mengarahkan perhatian pada tindakan yang diperlukan (pujian, pelengkap
instruksi, peningkatan tindak lanjut pencapaian anak, dll.)
Dimensi InfoQ
(1) Resolusi data: Resolusi data mengacu pada skala pengukuran dan tingkat agregasi data.
Skala pengukuran data harus dievaluasi secara cermat dalam kaitannya dengan
kesesuaiannya dengan tujuan. Data mungkin dicatat oleh berbagai instrumen atau
berbagai sumber, dan, dalam hal ini, informasi tambahan tentang keandalan dan
ketepatan alat pengukur atau sumber data akan berguna. Laporan MAP menyajikan
data spesifik siswa untuk satu mata pelajaran selama periode penilaian.
Laporan ini menggunakan beberapa skala pengukuran, ada yang bersifat jangkar dan ada pula
yang berkesinambungan, tanpa memberikan logika terhadap kompleksitas ini.
(2) Struktur data: Struktur data berkaitan dengan desain penelitian atau mekanisme
pengumpulan data. Tingkat InfoQ tipe data tertentu bergantung pada tujuan yang ada.
Laporan MAP didasarkan pada hasil pengujian tanpa perbandingan atau tolok ukur
apa pun dan tanpa mempertimbangkan tren. Data dikelompokkan ke dalam standar
konten/pengetahuan dan standar proses/kinerja.
(3) Integrasi data: Dengan beragamnya sumber data dan tipe data, sering kali terdapat
kebutuhan untuk mengintegrasikan berbagai sumber dan/atau tipe data. Seringkali, itu
Machine Translated by Google
88 Pendidikan
(4) Relevansi temporal: Proses memperoleh pengetahuan dari data dapat ditempatkan
pada suatu garis waktu yang mencakup pengumpulan data dan analisis data.
Durasi dan kesenjangan yang berbeda ini masing-masing dapat memengaruhi
InfoQ. Durasi pengumpulan data dapat ditambah atau dikurangi InfoQ,
tergantung tujuan penelitian. Dalam konteks laporan ujian, relevansi temporal
dijamin oleh kebutuhan untuk memperbarui laporan selama konferensi orang
tua-guru. Batas waktu praktis ini menjamin relevansi temporal laporan MAP.
(5) Kronologi data dan tujuan: Pilihan variabel yang akan dikumpulkan, hubungan
temporal antara variabel tersebut dan maknanya dalam konteks tujuan yang ada
juga mempengaruhi InfoQ. Laporan MAP berkaitan dengan hasil pengujian dari
pengujian dalam rentang waktu penilaian yang relevan. Hal ini memastikan
kronologi data dan tujuan.
Pendidikan 89
Kami menyajikan penilaian subjektif untuk masing-masing dimensi dan skor InfoQ pada
Tabel 6.1. Skor InfoQ keseluruhan sebagai persentase adalah 33%, yang termasuk rendah.
Dimensi terkuat adalah relevansi temporal dan kronologi data serta tujuan. Informasi yang
dipelajari dari pemeriksaan masing-masing delapan dimensi InfoQ dapat digunakan
untuk meningkatkan MAP yang disajikan pada Gambar 6.1. Faktanya, hal ini memberikan
daftar area yang perlu dipertimbangkan dalam merancang dan menerapkan perbaikan
tersebut.
Resolusi data 2
Struktur data 2
Integrasi data 2
Relevansi temporal 4
Kronologi data dan tujuan 4
Generalisasi 2
Operasionalisasi 2
Komunikasi 2
skor InfoQ 33%
Dalam beberapa kasus, didorong oleh inisiatif Race to the Top yang dilancarkan pemerintah
federal , banyak negara bagian dan distrik sekolah di Amerika Serikat telah memasukkan, dalam
evaluasi kinerja mereka, ukuran efektivitas guru berdasarkan data prestasi siswa.
Negara bagian dan distrik mulai mengukur efektivitas guru dengan menggunakan nilai tes dan
model nilai tambah atau VAM. Model-model ini memberikan ukuran kontribusi guru terhadap
prestasi siswa yang memperhitungkan faktor-faktor di luar kendali guru.
Pendekatan dasar VAM adalah memprediksi kinerja skor tes standar yang akan diperoleh setiap
siswa dengan rata-rata guru dan kemudian membandingkan kinerja rata-rata siswa dari guru
tertentu dengan rata-rata skor yang diprediksi. Perbedaan antara kedua skor tersebut—
bagaimana kinerja siswa sebenarnya jika berhadapan dengan seorang guru dan bagaimana
kinerja mereka jika menghadapi guru rata-rata—diberikan kepada guru tersebut sebagai nilai
yang ditambahkan pada kinerja nilai ujian siswa.
VAM biasanya menggunakan bentuk model regresi yang memprediksi skor atau pertumbuhan
siswa pada tes standar dari variabel latar belakang (termasuk skor tes sebelumnya), dengan
istilah dalam model untuk guru yang pernah mengajar siswa tersebut di masa lalu. Persentil
dihitung untuk setiap siswa dari model, menghubungkan pertumbuhannya dengan pertumbuhan
siswa lain dengan nilai tes sebelumnya yang serupa. Untuk setiap guru, median atau rata-rata
persentil siswanya digunakan untuk menghitung VAM guru.
Machine Translated by Google
90 Pendidikan
skor. Jika siswa seorang guru mempunyai pertumbuhan prestasi yang tinggi dibandingkan dengan siswa lain
yang mempunyai prestasi sebelumnya yang serupa, maka guru tersebut akan mempunyai nilai VAM yang
tinggi. Beberapa VAM juga memasukkan variabel latar belakang siswa lainnya. Bentuk model yang digunakan
mungkin menyebabkan biasnya skor VAM bagi sebagian guru. Misalnya, siswa “berbakat” atau siswa
penyandang disabilitas mungkin menunjukkan peningkatan nilai ujian yang lebih kecil jika model tidak
memperhitungkan status mereka secara akurat.
Penggunaan skor VAM untuk meningkatkan pendidikan mengharuskan skor tersebut memberikan informasi
yang bermakna tentang kemampuan guru dalam mendorong pembelajaran siswa. Misalnya, skor VAM harus
memprediksi bagaimana kemajuan siswa dari guru di kelas selanjutnya dan bagaimana siswa mereka di masa
depan akan mendapatkan hasil di bawah bimbingan mereka. Skor VAM dapat memberikan informasi kepada
guru dan administrator tentang kinerja siswanya dan mengidentifikasi bidang-bidang yang memerlukan
perbaikan, namun tidak memberikan informasi tentang cara meningkatkan pengajaran. Peningkatan tersebut
perlu ditargetkan pada tujuan tertentu, dan skor VAM harus dievaluasi dalam konteks tujuan tersebut. Tanpa
mencantumkan tujuan yang ditargetkan secara eksplisit, InfoQ skor VAM tidak dapat dinilai.
Model ini dapat digunakan untuk mengevaluasi dampak kebijakan atau program pelatihan guru dengan
membandingkan rata-rata skor VAM guru dari berbagai program. Dalam penggunaan ini, skor VAM
menyesuaikan sebagian dengan latar belakang siswa yang berbeda, dan merata-ratakan hasilnya pada guru
yang berbeda akan meningkatkan stabilitas estimasi. Untuk informasi lebih lanjut tentang sifat statistik VAM,
lihat Ballou dkk. (2004), McCaffrey dkk. (2003, 2004), Andrabi dkk. (2009), Mariano dkk. (2010), dan Karl dkk.
(2013, 2014a, 2014b).
Berikut ini, kita melihat dua kasus melalui lensa InfoQ. Yang pertama adalah studi empiris terkait VAM
yang mempunyai implikasi kebijakan penting. Yang kedua adalah pernyataan yang dikeluarkan oleh ASA
tentang “Penggunaan VAM untuk Penilaian Pendidikan.”
Dengan memeriksa dua jenis analisis yang berbeda (pernyataan empiris dan tertulis), kami menunjukkan
bagaimana kerangka InfoQ dapat membantu mengkarakterisasi, memperjelas, dan mengidentifikasi praktik
baik serta tantangan dalam berbagai jenis laporan.
6.3.1 “Studi Besar Menghubungkan Guru yang Baik dengan Keuntungan Abadi”
Artikel New York Times tanggal 6 Januari 2012 “Studi Besar Menghubungkan Guru yang Baik dengan
Keuntungan Abadi”1 mencakup studi penelitian tentang “Dampak Jangka Panjang Guru: Nilai Tambah Guru
dan Hasil Siswa di Masa Dewasa” (Chetty, Friedman, dan Rockoff, NBER, www.nber.org/papers/w17699). Para
penulis menggunakan model ekonometrik yang diterapkan pada data dari nilai ujian jutaan siswa dan informasi
keuangan serta demografi lainnya untuk mengevaluasi pengaruh guru VA terhadap perolehan masa depan
siswa. Para penulis menyimpulkan:
Kami menemukan bahwa siswa yang ditugaskan pada guru dengan VA [Nilai Tambah] yang
lebih tinggi akan lebih berhasil dalam banyak dimensi. Mereka lebih berpeluang untuk kuliah,
memperoleh gaji lebih tinggi, tinggal di lingkungan yang lebih baik, dan menabung lebih banyak
untuk masa pensiun. Mereka juga kecil kemungkinannya untuk memiliki anak saat remaja.
1www.nytimes.com/2012/01/06/education/big-study-links-good-teachers-to-standing-gain.html
Machine Translated by Google
Pendidikan 91
komponen InfoQ
Sasaran (g): Menguji apakah anak-anak yang mendapatkan guru bernilai tambah tinggi mempunyai hasil
yang lebih baik di masa dewasa (kami fokus pada tujuan ini, sementara penelitian ini mempunyai dua tujuan).
Data (X): Penugasan guru dan kelas dari tahun 1991 hingga 2009 untuk 2,5 juta anak, nilai ujian
dari tahun 1989 hingga 2009, dan data terpilih dari pengembalian pajak pendapatan federal AS
dari tahun 1996 hingga 2010 (hasil siswa: pendapatan, perguruan tinggi, kelahiran remaja,
lingkungan sekitar kualitas, karakteristik induk)
Analisis (f): Regresi linier. (“Digunakan untuk memprediksi nilai ujian siswa yang diajar oleh guru j
pada tahun t+1 menggunakan data nilai ujian dari t tahun sebelumnya”)
Utilitas: Ukuran efek, kesalahan prediksi minimal
Dimensi InfoQ
Kami sekarang mengevaluasi studi pada masing-masing dari delapan dimensi InfoQ:
(1) Resolusi data: Data mencakup satu observasi per siswa–mata pelajaran–
kombinasi tahun. “Penelitian hanya didasarkan pada statistik yang mengumpulkan ribuan
individu, bukan pada data individu.”
(2) Struktur data: Data mengenai nilai VA guru dan variabel sosio-ekonomi dan penghasilan telah
dipertimbangkan secara komprehensif dalam penelitian ini.
(3) Integrasi data: Data terintegrasi dari pengembalian pajak pendapatan federal AS dengan data
distrik sekolah (“sekitar 90% catatan siswa cocok dengan data pajak”).
(4) Relevansi temporal: Data mewakili gambaran singkat yang relevan untuk dekade pertama abad
kedua puluh satu.
(5) Kronologi data dan tujuan: Pengaruh minat kehadiran guru VA terhadap perolehan siswa jangka
panjang. Untuk menilai kronologi data dan tujuannya, kita harus mempertimbangkan
relevansi analisis data dengan kebutuhan pengambil keputusan dan perumusan kebijakan.
(6) Generalisasi: Model bertujuan untuk menggeneralisasi kepada guru secara umum dan secara
khusus menggunakan inferensi statistik, sehingga menunjukkan bahwa dicari generalisasi
statistik. Namun, karena ukuran sampel yang sangat besar, penggunaan nilai p dapat
menyesatkan dalam menentukan ukuran dampak yang berarti.
(7) Operasionalisasi: Pengoperasian informasi yang dilakukan laporan dapat diterjemahkan dalam
bentuk kebijakan pengangkatan dan promosi guru serta pengembangan karir.
Machine Translated by Google
92 Pendidikan
(8) Komunikasi: Menafsirkan dan menyajikan hasil analisis statistik merupakan titik
terlemah penelitian. Pertama, makalah ini melaporkan dampak yang signifikan
secara statistik tanpa harus melaporkan besarnya.
Dengan adanya satu juta sampel rekaman, signifikansi statistik dapat dicapai
bahkan dengan efek yang sangat kecil. Misalnya, meskipun kemiringan garis
regresi yang ditunjukkan pada Gambar 6.3 tampak dramatis dan signifikan secara
statistik, pendapatan berfluktuasi kurang dari $1000 per tahun. Untuk menyiasati
besarnya hal yang memalukan ini, penulis melihat “nilai seumur hidup” seorang
siswa. (“Rata-rata, memiliki guru [bernilai tambah tinggi] selama satu tahun akan
meningkatkan pendapatan kumulatif seumur hidup seorang anak sebesar $50.000
(setara dengan $9.000 dalam nilai sekarang pada usia 12 tahun dengan tingkat
bunga 5%).”) Dengan kata lain, terdapat kesenjangan besar antara hasil analisis
kuantitatif dan pernyataan kualitatif luas yang diklaim penelitian tersebut.
22.000
21500
21.000
n)aie8spP
nalisahagda u(
2
20500
20.000
–0,15 –0.10 –0,05 0,00 0,05 0,10 0,15
Guru VA (kelas 4– 8)
Gambar 6.3 Pendapatan per skor nilai tambah guru. Diadaptasi dari http://
rajchetty.com/ chettyfiles/ value_added.htm
Machine Translated by Google
Pendidikan 93
0,23 Variabel
Skor rata-rata keseluruhan
Skor rata-rata untuk guru
0,22
0,21
u
nan-d
nakrasna atleiajN
rarh
ia urt
b
a
0,20
0,19
–3 –2 –1 0 1 2
Nilai
Gambar 6.4 Nilai ujian menurut sekolah berdasarkan nilai nilai tambah guru yang tinggi.
Diadaptasi dari http:// rajchetty.com/ chettyfiles/ value_added.htm
Resolusi data 4
Struktur data 4
Integrasi data 5
Relevansi temporal 3
Kronologi data dan tujuan 4
Generalisasi 2
Operasionalisasi 2
Komunikasi 2
skor InfoQ 49%
Kesimpulan seperti ini dapat mempunyai implikasi kebijakan yang penting. Oleh karena itu mari kita periksa
penelitian ini menggunakan kerangka InfoQ.
Pada tanggal 8 April 2014, ASA mengeluarkan pernyataan bertajuk Menggunakan Model Nilai
Tambah untuk Penilaian Pendidikan (ASA, 2014). Kutipan dari ringkasan eksekutif dokumen ini
berbunyi sebagai berikut: “Banyak negara bagian dan distrik sekolah telah mengadopsinya
Machine Translated by Google
94 Pendidikan
Model Nilai Tambah (VAM) sebagai bagian dari sistem akuntabilitas pendidikan. Tujuan dari model ini…
adalah untuk memperkirakan pengaruh masing-masing guru atau sekolah terhadap prestasi siswa
sambil memperhitungkan perbedaan latar belakang siswa. VAM semakin dipromosikan atau diberi
mandat sebagai komponen dalam pengambilan keputusan berisiko tinggi seperti menentukan
kompensasi, mengevaluasi dan memberi peringkat guru, mengangkat atau memberhentikan guru,
memberikan masa jabatan, dan menutup sekolah… VAM adalah model statistik yang kompleks, dan
diperlukan keahlian statistik tingkat tinggi untuk mengembangkan model dan menafsirkan hasilnya.
Estimasi dari VAM harus selalu disertai dengan pengukuran presisi dan diskusi mengenai asumsi dan
kemungkinan keterbatasan model. Keterbatasan ini sangat relevan jika VAM digunakan untuk frekuensi
tinggi.
tujuan taruhan. VAM umumnya didasarkan pada nilai tes yang terstandarisasi, dan tidak secara
langsung mengukur potensi kontribusi guru terhadap hasil siswa lainnya.
VAM biasanya mengukur korelasi, bukan sebab-akibat: Dampak—positif atau negatif yang dikaitkan
dengan seorang guru mungkin sebenarnya disebabkan oleh faktor-faktor lain yang tidak tercakup dalam
model…Pemeringkatan guru berdasarkan skor VAM mereka dapat menimbulkan konsekuensi yang
tidak diinginkan sehingga menurunkan kualitas.”
Sekarang mari kita evaluasi pernyataan ASA menggunakan terminologi dan kerangka InfoQ.
komponen InfoQ
Untuk penilaian InfoQ, kita mulai dengan mengidentifikasi empat komponen InfoQ:
Sasaran (g): Mengevaluasi kinerja guru untuk mengelola proses pendidikan dengan lebih baik,
pemangku kepentingan adalah administrator pendidikan dan pembuat kebijakan pendidikan.
Data (X): Hasil tes terstandar dan informasi latar belakang siswa.
Analisis (f): VAM berdasarkan regresi linier.
Utilitas (U): Kesalahan prediksi minimal.
Tujuan, data, dan kegunaan yang sama dapat dipertimbangkan dengan metode analisis alternatif
yang disebut persentil pertumbuhan siswa (SGP). Kami secara singkat memperkenalkan SGP
untuk memberikan konteks evaluasi InfoQ VAM.
Seperti disebutkan, SGP adalah alternatif VAM yang menciptakan metrik
efektivitas guru dengan menghitung median atau rata-rata peringkat
persentil bersyarat pencapaian siswa pada tahun tertentu untuk siswa di
kelas guru. Untuk siswa tertentu dengan nilai Aig tahun ini dan sejarah nilai
{Ai,g ÿ 1 , Ai,g ÿ 2 , …, Ai , 1}, seseorang mencari persentil yang sesuai
dengan nilai sebenarnya siswa tersebut, Aig, dalam distribusi nilai dengan
syarat memiliki riwayat nilai ujian {Ai,g ÿ 1 , Ai,g ÿ 2 , …, Ai , 1}. Singkatnya,
analis mengevaluasi seberapa tinggi distribusi yang dicapai siswa, mengingat masa lalunya
Machine Translated by Google
Pendidikan 95
Dimensi InfoQ
1. Resolusi data: VAM menggunakan data nilai dan latar belakang siswa,
berdasarkan guru dan kelas. Data yang berkaitan dengan karakteristik kelas
seperti tingkat keterlibatan siswa atau kohesi sosial kelas tidak digunakan
dalam VAM. Informasi mengenai siswa “berbakat” atau penyandang disabilitas
juga tidak digunakan.
2. Struktur data: Struktur data komprehensif dalam hal skor tetapi tidak mencakup
data semantik seperti laporan tertulis mengenai kinerja siswa. Data yang
digunakan sebenarnya merupakan jenis data panel dengan informasi siswa
dan guru pada tingkat individu kelas.
3. Integrasi data: Data skor siswa dan guru dari waktu ke waktu dicocokkan untuk
menerapkan VAM.
4. Relevansi temporal: Skor nilai tambah guru berpotensi diperbarui pada setiap
akhir periode pelaporan.
6. Kemampuan untuk digeneralisasikan: Laporan analisis VAM sebagian besar berkaitan dengan
masing-masing guru dan, dengan demikian, memberikan kemampuan generalisasi statistik
hanya pada tingkat masing-masing guru.
96 Pendidikan
8. Komunikasi: Pernyataan ASA tentang VAM sebagian besar terfokus pada bagaimana
keluaran model mengenai nilai tambah guru digunakan dan diinterpretasikan.
Ringkasnya, pernyataan ASA VAM bersifat komprehensif dalam hal model statistik dan
asumsi terkait. Kami merangkum peringkat untuk setiap dimensi pada Tabel 6.3. Skor
InfoQ untuk pernyataan VAM adalah 57%. Peringatan dan implikasi asumsi tersebut
terhadap operasionalisasi VAM adalah poin utama pernyataan tersebut. Resolusi data,
struktur data, integrasi data, dan relevansi temporal di VAM sangat tinggi. Kesulitannya
terletak pada kronologi data dan tujuan, operasionalisasi, generalisasi, dan komunikasi
hasil VAM. Pernyataan ASA dirancang untuk mencerminkan penggunaan VAM yang
bermasalah ini. Namun dimensi ini masih bersifat ambigu dan menyisakan banyak ruang
untuk penafsiran. Menelaah dan menyatakan permasalahan ini melalui dimensi InfoQ
membantu menciptakan gambaran pendekatan VAM yang lebih jelas dan sistematis.
Resolusi data 5
Struktur data 4
Integrasi data 5
Relevansi temporal 5
Kronologi data dan tujuan 2
Generalisasi 3
Operasionalisasi 2
Komunikasi 3
skor InfoQ 57%
Pendidikan 97
penilaian formatif pendidikan dengan review beberapa topik, antara lain sains konsep dan MERLO,
dengan contoh pengajaran literasi kuantitatif. Dalam lampiran bab ini, kami juga menyertakan penerapan
MERLO dalam mata kuliah pengantar statistika.
Mendengarkan percakapan di antara para ahli konten mengungkapkan kecenderungan umum untuk
secara fleksibel memformulasi ulang isu yang sedang didiskusikan dengan memperkenalkan sudut
pandang alternatif, yang sering kali dikodekan dalam representasi alternatif dalam sistem tanda yang
berbeda. Misalnya, percakapan yang berawal dari percakapan lisan mungkin berlanjut hingga mencakup
pernyataan tertulis, gambar, diagram, persamaan, dan lain-lain, yang masing-masing memiliki
komentarnya sendiri-sendiri. Istilah kesetaraan makna menunjukkan kesamaan makna di beberapa
representasi. Ini menandakan kemampuan untuk mentranskode makna dalam transformasi makna yang
polimorfik (satu-ke-banyak) dari situasi konseptual tertentu melalui berbagai representasi di dalam dan di
seluruh sistem tanda. Mendengarkan percakapan di antara para pakar konten juga mengungkapkan tren
umum dalam mengidentifikasi pola asosiasi antara ide-ide penting, hubungan, dan isu-isu mendasar.
Para ahli ini terlibat dalam penemuan kreatif dan eksplorasi hubungan yang tersembunyi, namun
berpotensi dapat bertahan, yang menguji dan memperluas pola asosiasi yang mungkin tidak dapat
diidentifikasi dengan jelas atau mudah. Istilah “pemikiran konseptual” digunakan untuk menggambarkan
cara-cara mempertimbangkan suatu masalah; hal ini membutuhkan kemampuan, pengetahuan, dan
pengalaman untuk mengkomunikasikan ide-ide baru melalui representasi alternatif dari makna bersama
dan untuk menciptakan label leksikal dan prosedur praktis untuk memelihara dan mengembangkannya
lebih lanjut. Pendekatan ini awalnya dikembangkan oleh Uri Shafrir dari University of Toronto di Kanada
dan Masha Etkind dari Ryerson University, juga di Toronto (Shafrir dan Etkind, 2010). Penerapan MERLO
dalam program pendidikan statistik dan literasi kuantitatif diperkenalkan di Etkind et al. (2010). Untuk
penerapan MERLO dan pemetaan konsep pada teknologi baru dan lingkungan e-learning termasuk
MOOC, lihat Shafrir dan Kenett (2015).
Pernyataan dalam empat kuadran templat—Q1, Q2, Q3, dan Q4—diurutkan secara tematis
berdasarkan hubungannya dengan pernyataan target yang mengaitkan node tertentu (kelompok item).
Mereka diklasifikasikan berdasarkan dua kriteria pemilahan: kesamaan permukaan dengan target dan
kesetaraan makna dengan target. Misalnya, jika pernyataan mengandung teks dalam bahasa alami,
maka yang dimaksud dengan “kesamaan permukaan” yang kami maksud adalah kata-kata yang sama/
serupa yang muncul dalam urutan yang sama/serupa seperti dalam pernyataan target, dan yang dimaksud dengan “m
Machine Translated by Google
A
98 Pendidikan
k(
Pernyataan sasaran
Ya
Kemiripan permukaan (SS)
Ya TIDAK
Pertanyaan 1 Pertanyaan 2
SS Ya SS TIDAK
TIDAK
SS Ya SS TIDAK
Pertanyaan 3 Pertanyaan 4
kesetaraan” yang kami maksud adalah bahwa mayoritas dalam komunitas yang berbagi subbahasa
(Cabre, 1998; Kittredge, 1983) dengan kosa kata yang terkontrol (misalnya, statistik) kemungkinan
besar akan setuju bahwa makna pernyataan yang diurutkan setara dengan makna dari pernyataan
tersebut. pernyataan sasaran.
Pedagogi MERLO memandu episode pengajaran/pembelajaran berurutan dalam suatu kursus
dengan memusatkan perhatian peserta didik pada makna. Format item MERLO memungkinkan
instruktur untuk menilai pemahaman mendalam tentang konten konseptual dengan memperoleh
respons yang menandakan kemampuan pelajar untuk mengenali dan menghasilkan berbagai
representasi yang memiliki kesetaraan makna. Item MERLO tipikal berisi lima pernyataan yang
tidak diberi tanda: pernyataan target ditambah empat pernyataan tambahan dari kuadran Q2, Q3,
dan, terkadang, juga Q4. Instruksi tugas untuk tes MERLO adalah sebagai berikut: “Setidaknya
dua dari lima pernyataan ini—tetapi mungkin lebih dari dua—memiliki kesetaraanÿ
makna: 1) Tandai semua pernyataan—tetapi hanya pernyataan—yang memiliki kesetaraan
maknanya dan 2) Tuliskan secara singkat konsep yang memandu Anda dalam mengambil
keputusan tersebut.”
Misalnya, item MERLO pada Gambar 6.6 (matematika/fungsi) berisi lima representasi (A–E)
yang mencakup teks, persamaan, tabel, dan diagram; setidaknya dua dari representasi ini memiliki
kesetaraan makna. Dengan demikian, pembelajar pertama-tama diminta untuk melaksanakan
tugas pengenalan dalam situasi dimana pernyataan sasaran tertentu tidak diberi tanda, yaitu ciri-
ciri konsep yang akan dibandingkan tidak dibuat secara eksplisit. Untuk melakukan tugas ini,
pembelajar perlu memulai dengan memecahkan kode dan mengenali arti setiap pernyataan dalam
himpunan. Proses decoding ini biasanya dilakukan dengan menganalisis konsep-konsep yang
mendefinisikan “makna” setiap pernyataan. Analisis yang sukses atas semua pernyataan dalam
lima kumpulan pernyataan (item) memerlukan pemahaman mendalam tentang konten konseptual
dari domain tertentu.
Format item MERLO memerlukan inferensi aturan dan penerapan aturan dengan cara yang mirip
dengan solusi item penalaran analogis. Setelah pelajar menandai pernyataan-pernyataan yang
menurut pendapatnya memiliki kesamaan makna, dia merumuskan dan menjelaskan secara
singkat konsep/ide/kriteria yang ada dalam pikirannya ketika mengambil keputusan tersebut.
Machine Translated by Google
100 Pendidikan
Pada Gambar 6.8 kita melihat bahwa pangkat kurang dipahami dibandingkan kebanyakan
konsep termasuk persentase dan pecahan dan sudut tersebut lebih dipahami daripada fungsi
dan persamaan. Perbandingan tersebut memberikan instruktur wawasan yang berguna untuk
meningkatkan strategi pedagogi dan pengajaran.
Kita melihat bahwa fungsi, persamaan, dan pangkat mempunyai skor yang jauh lebih rendah
dibandingkan sudut, pecahan, garis, transisi, dan perbandingan terbalik. Perbedaan struktural
ini memberikan lebih banyak informasi untuk dimanfaatkan oleh para pakar pendidikan. Analisis
yang disajikan pada Gambar 6.7 dan 6.8 serta Tabel 6.4 dan 6.5 dilakukan dengan Minitab v17.2.
Machine Translated by Google
Pendidikan 101
Tabel 6.4 Nilai pengakuan MERLO untuk sepuluh konsep yang diajarkan di sekolah
menengah Italia.
3
ka
nauO ro
R
Lg nEkeM
S
p
0
Garis
Sudut
Kekuatan
Pecahan Transisi
FungsiPersamaan
Persentase
Lingkar
Proporsi terbalik
Gambar 6.7 Plot kotak skor pengakuan MERLO dalam sepuluh topik matematika yang diajarkan
di sekolah menengah Italia. Tanda bintang mewakili outlier di luar tiga standar deviasi rata-rata.
Machine Translated by Google
Gambar 6.8 Interval kepercayaan untuk perbedaan skor pengakuan MERLO antar topik.
Machine Translated by Google
Pendidikan 103
Sudut 18 4.444 A
Pecahan 29 4.172 AB
Garis 38 4.158 AB
Transisi 43 3.930 ABC
Proporsi terbalik 42 3.762 ABC
Lingkar 44 3.500 SM
Persentase 42 3.500 SM
Fungsi 24 3.167 CD
Persamaan 23 3.130 CD
Kekuatan 49 2.531 D
komponen InfoQ
Dimensi InfoQ
Di bawah ini kami berikan penilaian InfoQ atas laporan berdasarkan skor MERLO dalam
delapan dimensi InfoQ:
1. Resolusi data: Data turunan MERLO menggabungkan data dari skor pengenalan
sepuluh pernyataan target. Dalam hal ini, resolusi datanya tinggi.
2. Struktur data: Struktur data item MERLO dirancang untuk mencerminkan berbagai
aspek pemahaman konsep menggunakan informasi yang dinyatakan sendiri,
dibandingkan dengan data perilaku yang diamati. Data yang dihasilkan mencakup
pilihan pernyataan (data kategorikal) serta deskripsi konsep yang mendorong
jawaban, seperti yang dilaporkan oleh peserta didik (data teks).
3. Integrasi data: Data dari skor MERLO tidak mencakup data materi pelajaran yang
dipelajari atau individu yang tingkat pemahamannya dinilai.
Machine Translated by Google
104 Pendidikan
5. Kronologi data dan tujuan: Kuis MERLO dan pendidikan interaktif menyediakan
sinkronisasi kronologi data dan tujuan yang sangat tinggi.
Guru dapat memperoleh penilaian cepat terhadap kemampuan dan kesulitan siswa,
yang dapat digunakan untuk segera mengarahkan proses pembelajaran ke arah
tertentu.
6. Generalisasi: Hasil kuis atau tugas MERLO dapat membantu guru meningkatkan alat
untuk digunakan di masa mendatang. Dalam hal ini, ada generalisasi terhadap
penawaran kursus dengan topik yang sama di masa depan.
Peringkat untuk delapan dimensi ditunjukkan pada Tabel 6.6. Secara keseluruhan, skor
penilaian InfoQ dari data turunan MERLO adalah 68%, skor yang relatif tinggi sehingga
menjadikannya metode yang efektif untuk melakukan kegiatan penilaian formatif.
Dampak penilaian MERLO telah terbukti dalam berbagai aplikasi pendidikan termasuk
pendidikan matematika dan statistik, desain arsitektur, dan kesehatan (Shafrir dan
Kenett, 2015).
Resolusi data 4
Struktur data 3
Integrasi data 3
Relevansi temporal 4
Kronologi data dan tujuan 4
Generalisasi 4
Operasionalisasi 4
Komunikasi 4
skor InfoQ 68%
Machine Translated by Google
Pendidikan 105
Resolusi data 2 4 5 4
Struktur data 2 4 4 3
Integrasi data 2 5 5 3
Relevansi temporal 4 3 5 4
Kronologi data dan 4 4 2 4
tujuan
Generalisasi 2 2 3 4
Operasionalisasi 2 2 2 4
Komunikasi 2 2 4
Gunakan skor kasus 33 49 3 57 68
6.5 Ringkasan
Bab ini menyajikan empat studi kasus terkait pendidikan. Tabel 6.7 menyajikan penilaian InfoQ dari
masing-masing empat studi kasus dengan mengkualifikasikan skala dari 1 (“sangat buruk”) hingga 5
(“sangat baik”) untuk delapan dimensi InfoQ studi kasus. Penilaian ini bersifat subyektif dan
berdasarkan diskusi yang kami lakukan dengan rekan-rekan. Sebagai ukuran ringkasan, kami
menggunakan skor InfoQ pada skala 0–100. Dari Tabel 6.7 kita melihat bahwa kasus penggunaan
menerima skor InfoQ dari 33 hingga 68%. Penilaian ini juga dapat menunjukkan dimensi dimana
perbaikan terfokus akan meningkatkan tingkat InfoQ dari analisis dan laporan terkait.
Mengajarkan metode statistik adalah tugas yang menantang. Mengajarkan konsep statistik adalah
tugas yang lebih menantang yang memerlukan keterampilan, pengalaman, dan teknik yang memadai.
Untuk mendemonstrasikan penggunaan MERLO dalam pendidikan statistik, kami mengacu pada
Machine Translated by Google
106 Pendidikan
Contoh 3.33, halaman 89, dalam bab 3 tentang model probabilitas dan fungsi distribusi dari Kenett
dkk. (2014):
Pertanyaan: Berapa probabilitas bahwa selama satu jam pengoperasian tidak akan ada lebih dari
20 kesalahan penyisipan?
Solusi tipikal i: Pr(J2+J3 ÿ 20)=Binomial (20;3500,0,005)=0,7699.
Pernyataan target MERLO untuk konsep dasar ini dapat dinyatakan sebagai peristiwa Bernoulli
independen yang dijumlahkan sebagai variabel acak binomial, dengan sampel item MERLO menjadi
Q1: Probabilitas tidak lebih dari 20 kesalahan penyisipan dalam satu jam berasal dari distribusi
binomial dengan n=3500 dan p=0,005.
Q2: Pr(J2+J3 ÿ20)=binomial (20;3500,0,005)=0,7699.
Q3: Untuk menghitung probabilitas tidak lebih dari 20 kesalahan penyisipan dalam satu jam,
kami berasumsi 3480 penyisipan dan p=0,005.
Q4: Untuk menghitung probabilitas tidak lebih dari 20 kesalahan penyisipan dalam satu jam,
kami mengasumsikan 3480 penyisipan dan distribusi hipergeometri.
Sebagai contoh lain pertimbangkan pernyataan target: Nilai p adalah probabilitas untuk
mendapatkan hasil observasi atau hasil yang lebih ekstrim, jika hipotesis nol benar, dan kita dapat
mempunyai representasi alternatif berikut:
Q2: Pertimbangkan hipotesis nol bahwa sistem beroperasi seperti yang dijelaskan sebelumnya,
jika kita menolak hipotesis ini ketika kita mendapatkan lebih dari 20 kesalahan penyisipan,
p=1 ÿ Pr(J2+J3 ÿ 20)=0,23.
Q3: Nilai p adalah probabilitas hipotesis nol benar.
Q4: Nilai p yang besar menunjukkan bahwa hipotesis alternatif benar.
Pendidikan 107
Referensi
Andrabi, T., Das, J., Khwaja, A. dan Zajonc, T. (2009) Apakah Perkiraan Nilai Tambah Menambah Nilai?
Akuntansi Dinamika Pembelajaran, Makalah Penelitian Fakultas HKS Seri RWP09ÿ034, Sekolah
Pemerintahan John F. Kennedy, Universitas Harvard, http://dash.
harvard.edu/handle/1/4435671 (diakses 30 April 2016).
Arzarello, F., Kenett, RS, Robutti, O., Shafrir, U., Prodromou, T. dan Carante, P. (2015a)
Mengajar dan Menilai dengan Alat Metodologi Baru (MERLO): Pedagogi Baru? Dalam Konferensi
Internasional IMA tentang Hambatan dan Pendukung Pembelajaran Matematika: Meningkatkan
Pembelajaran dan Pengajaran untuk Semua Pembelajar, Hersh, MA dan Kotecha, M. (editor), Glasgow, Inggris.
Arzarello, F., Carante, P., Kenett, RS, Robutti, O. dan Trinchero, G. (2015b) Proyek MERLO: Alat Baru
untuk Pendidikan, IES 2015—Metode Statistik untuk Penilaian Layanan, Bari, Italia.
ASA, American Statistical Association (2014) Pernyataan ASA tentang Model Nilai Tambah untuk
Pendidikan. https://www.amstat.org/policy/pdfs/ASA_VAM_Statement.pdf (diakses 30 April 2016).
Ballou, D., Sanders, W. dan Wright, P. (2004) Mengontrol latar belakang siswa dalam nilai-
penilaian tambahan terhadap guru. Jurnal Statistik Pendidikan dan Perilaku, 29, hlm.37–65.
Betebenner, DW (2009) Pertumbuhan siswa yang mengacu pada norma dan kriteria. Pendidikan
Pengukuran: Isu dan Praktek, 28 (4), hlm.42–51.
Betebenner, DW (2011) Tinjauan Teknis Metodologi Persentil Pertumbuhan Siswa: Persentil Pertumbuhan
Siswa dan Proyeksi/Lintasan Pertumbuhan Persentil. http://www.
nj.gov/education/njsmart/kinerja/SGP_Technical_Overview.pdf (diakses 30 April 2016).
Machine Translated by Google
108 Pendidikan
Goodman, D. dan Hambleton, R. (2004) Laporan nilai ujian siswa dan panduan interpretatif: tinjauan
praktik saat ini dan saran untuk penelitian masa depan. Pengukuran Terapan dalam Pendidikan, 17(2),
hlm.145–220.
Karl, A., Yang, Y. dan Lohr, S. (2013) Estimasi kemungkinan maksimum yang efisien dari model campuran
linier keanggotaan berganda, dengan penerapan pada penilaian nilai tambah pendidikan. Statistik
Komputasi dan Analisis Data, 59, hlm.13–27.
Karl, A., Yang, Y. dan Lohr, S. (2014a) Perhitungan estimasi kemungkinan maksimum untuk model
campuran linier umum multirespons dengan efek acak berkorelasi dan tidak bersarang.
Statistik Komputasi dan Analisis Data, 73, hlm.146–162.
Karl, A., Yang, Y. dan Lohr, S. (2014b) Model efek acak berkorelasi untuk data hilang yang tidak dapat
diabaikan dalam penilaian nilai tambah efek guru. Jurnal Statistik Pendidikan dan Perilaku, 38, hlm.577–
603.
Kenett, RS, Zacks, S. dan Amberti, D. (2014) Statistik Industri Modern: Dengan Penerapan
Menggunakan R, MINITAB dan JMP edisi ke-2. John Wiley & Sons, Sussex.
Kittredge, RI (1983) Pemrosesan Semantik Teks dalam Subbahasa Terbatas, dalam Linguistik Komputasi,
Cercone, NJ (editor), Pergamon Press, Oxford, Inggris, hlm.45–58.
Lohr, S. (2014) Manik-manik merah dan pengetahuan mendalam: deming dan kualitas pendidikan, Deming
kuliah, Pertemuan Statistik Gabungan, Boston, MA.
Mariano, L., McCaffrey, D. dan Lockwood, J. (2010) Model efek guru dari data longitudinal tanpa
mengasumsikan penskalaan vertikal. Jurnal Statistik Pendidikan dan Perilaku, 35, hlm.253–279.
McCaffrey, DF, Lockwood, JR, Koretz, DM dan Hamiltion, LS (2003) Mengevaluasi Nilai-
Model Tambahan untuk Akuntabilitas Guru. Perusahaan RAND, Santa Monica.
McCaffrey, D., Lockwood, JR, Louis, T. dan Hamilton, L. (2004) Model model nilai tambah efek guru. Jurnal
Statistik Pendidikan dan Perilaku, 29(1), hlm.67–101.
Shafrir, U. dan Etkind, M. (2006) eLearning untuk kedalaman web semantik. Jurnal Teknologi Pendidikan
Inggris, 37(3), hlm.425–444.
Shafrir, U. dan Etkind, M. (2010) Ilmu Konsep: Isi dan Struktur Pola Berlabel
dalam Pengalaman Manusia. Versi 31.0.
Shafrir, U. dan Kenett, RS (2015) Analisis Pembelajaran MERLO Berbasis Bukti Sains Konsep, dalam
Buku Pegangan Teori dan Desain Pembelajaran Terapan dalam Pendidikan Modern, IGI Global,
Hershey, PA.
Walsh, E. dan Isenberg, E. (2015) Bagaimana nilai tambah dibandingkan dengan persentase pertumbuhan siswa
ubin? Statistika dan Kebijakan Publik, 10.1080/2330443X.2015.1034390
Machine Translated by Google
Survei pelanggan
7.1 Pendahuluan
Studi kepuasan pelanggan berhubungan dengan pelanggan, konsumen, dan kepuasan
pengguna dari suatu produk atau layanan. Topik ini awalnya dikembangkan dalam teori dan
aplikasi pemasaran. BusinessDictionary (www.businessdictionary.com) mendefinisikan
kepuasan pelanggan sebagai “tingkat kepuasan yang diberikan oleh barang atau jasa suatu
perusahaan yang diukur dengan jumlah pelanggan tetap.” Menurut definisi ini, kepuasan
pelanggan nampaknya merupakan kuantitas yang obyektif dan mudah diukur.
Namun, berbeda dengan variabel seperti jenis produk yang dibeli atau lokasi geografis,
kepuasan pelanggan tidak serta merta diamati secara langsung. Biasanya, dalam konteks
ilmu sosial, analisis tindakan tersebut dilakukan secara tidak langsung dengan menggunakan
variabel proksi. Variabel yang tidak teramati disebut sebagai variabel laten, sedangkan
variabel proksi disebut dengan variabel teramati. Dalam banyak kasus, variabel laten
sangatlah kompleks dan pilihan variabel proksi yang sesuai tidak serta merta terlihat jelas.
Misalnya, untuk menilai kepuasan pelanggan suatu maskapai penerbangan, perlu
diidentifikasi atribut yang menjadi ciri jenis layanan tersebut. Kerangka umum untuk menilai
maskapai penerbangan mencakup atribut seperti layanan di dalam pesawat, ketepatan
waktu, ketanggapan personel, kursi pesawat, dan karakteristik layanan nyata lainnya.
Secara umum, beberapa atribut bersifat objektif, terkait dengan karakteristik teknis layanan
yang spesifik, dan atribut lainnya bersifat subjektif, berkaitan dengan perilaku, perasaan,
dan manfaat psikologis. Pada akhirnya, untuk merancang kuesioner survei, serangkaian
variabel yang diamati harus diidentifikasi.
Dalam praktiknya, banyak survei kepuasan pelanggan yang dilakukan perusahaan
dianalisis dengan cara yang sangat sederhana, tanpa menggunakan model atau metode statistik.
© 2017 John Wiley & Sons, Ltd. Diterbitkan 2017 oleh John Wiley & Sons, Ltd.
Situs web pendamping: www.wiley.com/go/information_quality
Machine Translated by Google
Laporan umum mencakup statistik deskriptif dan tampilan grafis dasar. Dalam bab ini kami fokus pada
kualitas informasi survei pelanggan. Secara khusus, kami menunjukkan bagaimana InfoQ survei dapat
meningkat dengan menggabungkan analisis dasar dengan alat yang lebih canggih, sehingga
memberikan wawasan tentang pola yang tidak jelas dan hubungan antar variabel survei. Secara
khusus, kami menggunakan kerangka InfoQ untuk membandingkan tujuh metode analisis (f) yang
populer dalam analisis survei pelanggan. Kami berasumsi dalam semua kasus bahwa data (X) adalah
data kuesioner survei yang khas dan kegunaannya (U) adalah untuk menginformasikan perusahaan
atau organisasi pengelola mengenai kepuasan pelanggannya untuk meningkatkan kepuasan pelanggan
dan/atau mengurangi ketidakpuasan pelanggan. Di Bagian 7.3 kami menjelaskan dan mempertimbangkan
berbagai tujuan (g) yang ingin dicapai oleh survei pelanggan.
Survei modern dilakukan melalui berbagai macam teknik termasuk wawancara telepon, kuesioner
kertas yang dilaporkan sendiri, kuesioner email, survei internet, dan survei online.
survei berbasis, survei berbasis SMS, wawancara tatap muka, konferensi video, dan banyak lagi.
Dalam mengevaluasi hasil survei kepuasan pelanggan, tiga pertanyaan latar belakang harus diperiksa:
suara proses (VoP), dan suara tenaga kerja (VoW). Integrasi tersebut, melalui jaringan Bayesian (BN) atau
metode statistik lainnya, menyediakan hubungan antara variabel-variabel yang diukur dalam tiga dimensi ini.
Tautan ini dapat menunjukkan, misalnya, sejauh mana karyawan yang puas berarti pelanggan yang bahagia dan
peningkatan kinerja keuangan. Integrasi di Sears Roebuck menunjukkan bahwa peningkatan kepuasan karyawan
sebesar 5 poin (dari 100) menghasilkan peningkatan kepuasan pelanggan sebesar 1,5 unit (dari 5), yang
diperkirakan menghasilkan peningkatan pertumbuhan pendapatan sebesar 0,5% (Rucci dkk., 1998).
Dalam menangani kepuasan pelanggan, ada beberapa pernyataan yang biasa disampaikan mengenai
dampak peningkatan loyalitas dan kepuasan pelanggan. Hal ini didasarkan pada pengalaman praktis dan
penelitian (lihat, misalnya, http://tarp.com/home.html). Beberapa pernyataan yang lebih populer adalah sebagai
berikut:
• Pelanggan yang sangat puas mempunyai kemungkinan enam kali lebih besar untuk membeli kembali produk Anda.
• Pelanggan setia membelanjakan 5–6% lebih banyak anggaran belanjanya dibandingkan pelanggan
yang tidak setia.
• Peningkatan retensi pelanggan sebesar 5% saja dapat meningkatkan laba sebesar 25–85%.
• Mendapatkan pelanggan memerlukan biaya lima hingga tujuh kali lebih besar dibandingkan mempertahankan satu pelanggan.
• Pelanggan yang puas, rata-rata, menceritakan kepada lima orang lainnya tentang barang mereka
pengalaman.
4. Biaya pembelotan
• Rata-rata pelanggan yang mempunyai masalah akhirnya menceritakan kepada sembilan orang lainnya
tentang itu.
• 91% pelanggan yang tidak puas tidak akan pernah membeli lagi dari Anda.
Survei kepuasan pelanggan tahunan (ACSS) dilakukan setiap tahun oleh perusahaan, organisasi, dan
lembaga pemerintah untuk:
• Bandingkan data dari waktu ke waktu untuk mengidentifikasi pola pengalaman pelanggan
• Menyebarluaskan hasilnya ke khalayak yang tepat di dalam perusahaan untuk mendorong perubahan
dalam organisasi
Machine Translated by Google
Rencana ACSS berbasis Internet, dan langkah/hasilnya, disajikan pada Tabel 7.1. Perjanjian
tingkat layanan teknis (SLA) yang umum, ketika melakukan ACSS berbasis Internet, disajikan pada
Tabel 7.2.
ACSS biasanya merupakan bagian dari rencana yang lebih besar yang dirancang dan disetujui
pada awal tahun keuangan. Pada saat itu, keputusan yang mempunyai dampak strategis dan
anggaran dibuat.
Jika tahun anggaran dimulai pada bulan Januari, permulaan siklus ACSS biasanya direncanakan
pada bulan Agustus. Dalam konteks ini, kerangka umum pelaksanaan ACSS terdiri dari kegiatan-
kegiatan yang tercantum pada Tabel 7.3.
Untuk menjalankan siklus tahunan ini, diperlukan komite pengarah yang efektif dan metodologi
perbaikan. Untuk rincian tentang kemampuan organisasi dalam konteks organisasi pengembangan
sistem dan perangkat lunak, lihat Kenett dan Baker (2010).
Tabel 7.1, 7.2, dan 7.3 menggambarkan rencana tahunan ACSS dan memberikan gambaran
khas ACSS, dalam keseluruhan inisiatif strategis untuk mencapai keunggulan operasional. Ketika
menerapkan pendekatan terpadu, inisiatif ACSS dilengkapi
Machine Translated by Google
Tabel 7.2 Perjanjian tingkat layanan untuk survei kepuasan pelanggan berbasis Internet.
Subjek Metrik
1. Pelanggan tidak dapat mengakses situs survei • Rata-rata waktu antar kegagalan
2. Pelanggan tidak dapat memasukkan jawaban tertentu
(MTBF)—tiga hari
3. Survei tidak responsif
4. Waktu respons buruk • Waktu rata-rata antara waktu kritis
5. Laporan kemajuan tidak dapat diakses kegagalan (MTBCF)—dua minggu
Bulan Aktivitas
oleh inisiatif lain seperti survei karyawan, dasbor yang mencerminkan VoP, dan survei berdasarkan
peristiwa yang dipicu oleh peristiwa tertentu. Contoh peristiwa yang diikuti dengan kuesioner survei
kepuasan mencakup panggilan ke pusat layanan atau pembelian produk baru. Di bagian berikut,
kami menjelaskan masing-masing dari empat komponen InfoQ dalam analisis survei pelanggan.
Machine Translated by Google
• Menyempurnakan kuesioner
A. Model regresi linier biasa. Variabel penjelas menggambarkan dimensi yang berkaitan
dengan aspek spesifik suatu produk atau layanan, misalnya usia peralatan atau lokasi
geografis. Model regresi berlaku untuk data yang dapat dinyatakan pada skala penilaian
terurut konvensional. Data tersebut dapat merujuk pada karakteristik pribadi responden,
seperti usia, atau jumlah pembelian atau jumlah total pengeluaran pada periode
sebelumnya yang diukur dalam skala berkelanjutan.
Teknik analisis statistik yang umum untuk data tersebut menerapkan kriteria kuadrat
terkecil untuk memperoleh perkiraan parameter yang tidak diketahui dan metode terkait
untuk memeriksa kesesuaian.
Machine Translated by Google
B. Model dan teknik regresi memperhitungkan karakter ordinal dari respon dan variabel penjelas.
Dalam konteks ini, analisis regresi monotonik memegang peranan penting (lihat Kruskal
(1965)). Dalam Zanella (1998), model regresi nonlinier dengan variabel laten disajikan untuk
memperoleh representasi skala rasio dari respon.
C. Model regresi logistik. Jika seseorang dapat mengasumsikan distribusi probabilitas untuk
respons yang menggambarkan kepuasan secara keseluruhan, maka nilai yang diharapkan
dari respons tersebut dapat disajikan, dengan pengondisian pada situasi berbeda yang
dijelaskan oleh nilai-nilai variabel penjelas. Pendekatan regresi logistik memungkinkan kita
untuk mempertimbangkan fakta bahwa nilai variabel respons berada pada skala ordinal,
karena mengacu pada distribusi probabilitas respons secara lebih langsung.
• Kesenjangan 1: Harapan pelanggan versus persepsi manajemen mengenai apa yang pelanggan
inginkan
Pelanggan
komunikasi kebutuhan
pengalaman
Mengharapkan
melayani
Kesenjangan 5
Dirasakan
melayani
Pemberi
Melayani Luar
pengiriman komunikasi
Kesenjangan 4
Kesenjangan 1 kepada pelanggan
Kesenjangan 3
Kualitas layanan
Kesenjangan 2
spesifikasi
Persepsi manajemen
harapan pelanggan
Gambar 7.1 Model kesenjangan SERVQUAL. Sumber: Parasuraman dkk. (1988). Direproduksi dengan izin dari
Elsevier.
Strategi umum untuk menutup Kesenjangan 5 terdiri dari penutupan Kesenjangan 4 terlebih dahulu, kemudian
Kesenjangan 1, 2, dan 3.
Model ini dioperasionalkan dengan kuesioner yang menyelidiki kinerja yang diharapkan dan dirasakan pelanggan.
Beberapa kritik terhadap pendekatan model kesenjangan diungkapkan oleh Cronin dan Taylor (1992), yang
menimbulkan keraguan tentang indikator SERVQUAL yang tepat untuk menggambarkan kualitas layanan. Kritik ini
memunculkan model lain yang lebih baik, SERVPERF. Kedua model tersebut mewakili hubungan terstruktur antara
variabel yang mewakili komponen layanan dan kepuasan secara keseluruhan.
Dalam model kepuasan pelanggan umum seperti SERVQUAL atau SERPERF, kepuasan pelanggan dianggap
sebagai “atribut multidimensi,” di mana setiap komponen berhubungan dengan dimensi konstruksi konseptual, yaitu
aspek produk atau layanan yang dianggap penting. dalam menentukan kepuasan pelanggan. Sintesis evaluasi atribut
kepuasan “marginal” tunggal mempunyai sifat yang menentukan dan oleh karena itu bersifat konvensional. Secara
khusus, model ini menyatakan secara eksplisit hubungan fungsional dari variabel laten yang sesuai dengan berbagai
dimensi dan menargetkan variabel satu dimensi yang terkait dengan konsep yang diselidiki seperti kepuasan
pelanggan secara keseluruhan.
Machine Translated by Google
Kenett dan Salini (2009) menerapkan BN pada data yang dikumpulkan dari 266 perusahaan
yang berpartisipasi dalam ACSS. Data tersebut mencakup tanggapan terhadap kuesioner yang
terdiri dari 81 pertanyaan. Gambar 7.2 menunjukkan BN yang dihasilkan, dengan panah yang
menghubungkan jawaban terhadap pertanyaan spesifik pada skala 1–5 dan lokasi geografis
pelanggan. Misalnya, kita dapat melihat bahwa tingkat kepuasan dari persediaan mempengaruhi
tingkat kepuasan dari peralatan, pelatihan, dan portal web. Tingkat kepuasan dari peralatan
mempengaruhi kepuasan secara keseluruhan dan tingkat rekomendasi perusahaan.
Grafik menyajikan struktur BN, dan CPT mewakili estimasi model. Berdasarkan jaringan, kita
dapat melakukan berbagai pemeriksaan diagnostik. Misalnya, kita dapat menghitung distribusi
tanggapan terhadap berbagai pertanyaan untuk pelanggan yang menunjukkan bahwa mereka
kemungkinan besar akan merekomendasikan produk tersebut kepada orang lain.
Analisis semacam itu memungkinkan pembuatan profil pelanggan setia dan merancang indikator
peringatan dini yang memprediksi ketidakpuasan pelanggan. Dalam arti tertentu, BN menyediakan
alat pendukung keputusan bagi para pengambil keputusan dimana skenario alternatif dapat
dinilai dan tujuan operasional dapat ditetapkan. Untuk informasi lebih lanjut mengenai penerapan
BN pada analisis survei pelanggan, lihat Kenett dan Baker (2010), Kenett dan Salini (2011b),
Kenett dkk. (2011b), dan Cugnata dkk. (2014, 2016).
Machine Translated by Google
Dukungan teknis
Negara1 7%
Kepuasan dari...
Negara2 13%
Persediaan Negara bagian1 11%
Negara bagian3 16%
Negara1 1% Kepuasan keseluruhan... Negara bagian2 15%
Negara bagian4 38%
Negara bagian2 7% Negara1 7% Negara bagian3 36%
Negara bagian5 5%
Pintu gerbang
Negara bagian2 7%
Negara
Negara bagian5 5%
Benalux 26% Pembelian kembali
Penjualan 5% Negara1 7%
Perancis
Negara5 15%
Gambar 7.2 Respons jaringan Bayesian terhadap pertanyaan kepuasan dari berbagai topik, kepuasan
keseluruhan, niat membeli kembali, tingkat rekomendasi, dan negara responden.
Machine Translated by Google
Perbedaan positif berarti kepuasan pelanggan lebih tinggi daripada tingkat kualitas barang. Perbedaan ÿi ÿÿj
menentukan probabilitas jawaban spesifik terhadap pertanyaan j. Khususnya, dalam kasus dikotomis dimana
jawaban pertanyaan adalah “0” untuk “tidak puas” dan “1” untuk “puas”, probabilitas jawaban xij=1 oleh
pengalaman Saya
J
hal 1| P
aku j
Saya ,
J aku j
1 pengalaman Saya
Dalam model dikotomis, data dikumpulkan dalam matriks skor mentah, dengan n baris (satu untuk setiap
pelanggan) dan J kolom (satu untuk setiap pertanyaan), yang nilainya 0 atau 1.
J
Jumlah setiap baris r x mewakili skor total pelanggan i untuk semua item,
Saya
ij
N
J 1
sedangkan jumlah setiap kolom s x mewakili skor yang diberikan oleh semua pelanggan.
J ij
Saya 1
tomer untuk pertanyaan j. RM memiliki beberapa properti penting. Properti pertama adalah item hanya
mengukur satu fitur laten (satu dimensi). Hal ini merupakan keterbatasan dalam penerapan survei kepuasan
pelanggan yang biasanya terdapat beberapa dimensi independen. Ciri penting lainnya dari RM adalah
jawaban suatu item tidak bergantung pada jawaban item lainnya (kemandirian lokal). Dalam konteks survei
kepuasan pelanggan, hal ini merupakan suatu keuntungan. Untuk parameter yang tidak membuat asumsi,
dengan menerapkan transformasi logit log / p , ÿi dan ÿj dapat dinyatakan pada skala yang sama (linearitas
parameter); estimasi ÿi dan ÿj bebas uji dan sampel (keterpisahan parameter), dan
1 P
aku j aku j
total baris dan kolom pada matriks skor mentah merupakan statistik yang cukup untuk estimasi
dari ÿi dan ÿj (statistik yang memadai). Untuk informasi lebih lanjut tentang properti ini, lihat Andrich (2004).
Model dikotomis Rasch telah diperluas ke kasus lebih dari dua kategori terurut seperti skala Likert 1–5.
Pendekatan ini mengasumsikan bahwa antara setiap kategori dan kategori berikutnya, terdapat ambang batas
yang mengkualifikasikan posisi item sebagai fungsi dari tingkat kualitas yang disajikan oleh setiap kategori
jawaban. Ambang batas adalah ketika dua kategori yang berdekatan mempunyai peluang yang sama untuk
dipilih sehingga, misalnya, peluang untuk memilih kategori pertama adalah peluang untuk tidak melebihi
ambang batas pertama. Jadi, jawaban setiap ambang batas h dari suatu item j bergantung pada suatu nilai
Machine Translated by Google
ÿj +ÿh , di mana ÿj mencirikan respons terhadap item j. Suku kedua mewakili ambang batas h
dari ÿj yang mengacu pada item j. Ambang batas diurutkan (ÿhÿ1<ÿh ), karena mencerminkan
urutan kategori. Untuk lebih jelasnya lihat De Battisti dkk. (2011). Ekstensi ini memungkinkan
kami memodelkan respons pada skala 1–5.
Kegunaan RM dapat dievaluasi dengan statistik rasio kemungkinan Andersen, yang
menguji asumsi bahwa perkiraan parameter kesulitan adalah sama.
RM menyediakan banyak alat diagnostik seperti kurva karakteristik item, kebaikan-
plot of-fit, peta orang-item, peta jalur dan berbagai uji statistik (untuk lebih jelasnya, lihat bab
14 dalam Kenett dan Salini, 2011b).
M 1 R 1
B Tn.
1 , R 1, 2, M ,.
R
R 1
1
kamu m , R 1, 2, , M .
R
M
Pr R r B 1 kamu Tn , 1 ,2, ,m
R R
Machine Translated by Google
M 1 1
UGD M 1 .
2 2
H0 : 0
H1: 0
dimana ÿ dapat berupa mean, standard error, atau proporsi, bergantung pada jenis dan cakupan
peta kendali tertentu (misalnya, untuk variabel atau atribut).
Semua rincian sebelumnya juga berlaku ketika kita tertarik untuk menguji pergeseran
parameter tertentu seperti Dalam kasus
0
atau
ini, hanya
0. satu batas kendali, baik batas kendali atas
(UCL) atau batas kendali bawah (LCL), yang dilaporkan pada kendali. bagan.
Secara spesifik, grafik p dengan batas kendali = pkpp 1 atau / n digunakan untuk mon-
persentase responden yang menjawab “5” (sangat tinggi) pada pertanyaan kepuasan secara
keseluruhan. Di sini n adalah jumlah responden, dan k adalah pengali konstan deviasi standar
binomial yang digunakan untuk menetapkan batas kendali. Nilai k=2 sering diterapkan dalam
penerapan diagram kendali untuk analisis data kepuasan pelanggan. Untuk lebih jelasnya, lihat
Kenett dkk. (2011a). Untuk penerapan diagram kendali multivariat menggunakan metode
komposisi, lihat VivesÿMestres dkk. (2014, 2015, 2016).
dalam analisis survei pelanggan. Kami berasumsi dalam semua kasus bahwa data (X) adalah data
kuesioner survei yang khas dan kegunaannya (U) adalah untuk menginformasikan perusahaan atau
organisasi pengelola mengenai kepuasan pelanggannya untuk meningkatkan kepuasan pelanggan
dan/atau mengurangi ketidakpuasan pelanggan. Meskipun terdapat beragam tujuan (seperti
dijelaskan dalam Bagian 7.3), di sini kami fokus pada mengidentifikasi faktor pendorong kepuasan
secara keseluruhan, sebagai ilustrasi.
1. Resolusi data: Model regresi dapat menangani semua jenis data, termasuk ordinal, nominal,
dan kontinu. Dengan demikian, mereka memberikan kemampuan untuk menangani resolusi
data secara memadai.
2. Struktur data: Melalui tanggapan terhadap pertanyaan dan komentar terbuka, survei
menggabungkan komponen terstruktur dan tidak terstruktur. Dalam kebanyakan kasus,
model regresi tidak secara langsung memodelkan teks semantik. Langkah ekstra dalam
penambangan teks diperlukan untuk tujuan itu.
3. Integrasi data: Menggabungkan sumber data dan tipe data sebagian dapat ditangani dengan
model regresi seperti metode fusi data.
4. Relevansi temporal: Efek waktu dapat dimasukkan ke dalam model regresi sehingga relevansi
temporal, sebagaimana tercermin dalam data, dapat terwakili sepenuhnya.
5. Kronologi data dan tujuan: Penerapan model regresi dalam sistem online dapat memberikan
pembaruan yang konstan atau perkiraan retrospektif.
6. Generalisasi: Model regresi didasarkan pada teori statistik dan oleh karena itu menyediakan
sarana untuk inferensi statistik dan generalisasi dari sampel ke populasi.
7. Operasionalisasi: Wawasan yang diperoleh dari model regresi, yang menghubungkan kovariat
dengan tanggapan, memberikan penjelasan yang terbukti berguna dalam merancang item
tindakan terfokus.
1. Resolusi data: SEM dirancang untuk menangani data berbasis kuesioner. Oleh karena itu,
mereka biasanya tidak mempertimbangkan kovariat kontinu atau tekstual.
2. Struktur data: Model struktural secara eksplisit menyajikan struktur data yang menggabungkan
variabel laten. Klarifikasi paksa terhadap struktur data ini cukup unik.
3. Integrasi data: Integrasi data dari sumber berbeda biasanya tidak dipertimbangkan dalam model
struktural.
4. Relevansi temporal: ACSI, yang menggunakan model struktural, didasarkan pada serangkaian
survei berbasis telepon. Hal ini memberikan pendekatan operasional untuk memastikan
relevansi temporal.
5. Kronologi data dan tujuan: Penggunaan model struktural biasanya menghasilkan laporan bulanan
tanpa pertimbangan khusus untuk penyesuaian khusus informasi dari survei.
1. Resolusi data: Data yang digunakan dalam model tersebut didasarkan pada kuesioner.
2. Struktur data: Data yang biasanya digunakan dalam model tersebut didasarkan pada skala Likert
yang ditetapkan pada 1–5.
Machine Translated by Google
3. Integrasi data: Data kuesioner diterapkan pada model tanpa mengacu langsung pada
indikator kinerja terkait layanan seperti waktu respons dan keluhan pelanggan.
5. Kronologi data dan tujuan: Pendekatan yang digunakan adalah dukungan tahunan
rencana perbaikan.
1. Resolusi data: BN dapat menangani variabel kontinu, nominal, dan ordinal yang
didiskritisasi. Beberapa BN juga dapat menangani data berkelanjutan secara langsung.
2. Struktur data: Data yang ditangani oleh BN dapat mencakup data semantik yang berasal
dari analisis teks (“sekantong kata”) dan data operasional seperti waktu respons atau
jumlah keluhan pelanggan. Dalam implementasinya yang paling sederhana, BN
didasarkan pada data yang didiskritisasi dan CPD antar variabel terkait.
3. Integrasi data: BN sangat efektif dalam mengintegrasikan variabel kualitatif dan kuantitatif.
4. Relevansi temporal: BN dapat diperbarui secara rutin dengan memuat data terbaru dan
memperoleh perkiraan posterior yang diperbarui. Kemampuan ini, yang berasal dari
konteks BN Bayesian, memberikan kemampuan unik untuk memastikan relevansi
temporal yang berkelanjutan.
5. Kronologi data dan tujuan: Dalam BN, variabel temporal seperti tahun atau bulan dapat
digunakan dalam jaringan dan dengan demikian memungkinkan pengondisian fleksibel
yang memberikan peningkatan kronologi data dan tujuan.
8. Komunikasi: Tampilan visual BN membuatnya sangat menarik bagi pengambil keputusan yang
merasa tidak nyaman dengan model matematika.
1. Resolusi data: Model ruam mengandalkan kuesioner dengan item spesifik yang cocok dengan
titik kontak pelanggan yang mewakili interaksi yang menentukan pengalaman pelanggan.
2. Struktur data: Data yang digunakan berdasarkan jawaban terhadap pertanyaan, bukan jawaban
komentar atau informasi semantik apa pun.
3. Integrasi data: RM mengintegrasikan item dan karakteristik spesifik individu. Kedua komponen
ini juga dapat dijelaskan dengan menggunakan kovariat yang sesuai.
6. Generalisasi: Model ini sangat dapat digeneralisasikan, seperti yang awalnya dipahami oleh
Georg Rasch dengan konsep objektivitas spesifik.
7. Operasionalisasi: Model ini memberikan perbedaan yang jelas antara kecenderungan individu
dan tingkat kepuasan spesifik item.
8. Komunikasi: Estimasi model dapat disajikan secara visual dengan bar plot atau lainnya.
Berbagai plot diagnostiknya menyediakan alat presentasi data yang efektif.
2. Struktur data: Model CUB tidak secara eksplisit menangani komentar tekstual atau
kovariat.
Machine Translated by Google
3. Integrasi data: Model CUB mengintegrasikan intensitas perasaan terhadap suatu item tertentu
dengan ketidakpastian respon. Kedua komponen ini juga dapat dijelaskan dengan menggunakan
kovariat yang sesuai.
4. Relevansi temporal: Analisis menggunakan CUB relevan dengan survei berkala atau tujuan khusus.
7. Operasionalisasi: Model ini sebagian besar terfokus pada penjelasan hasil survei. Wawasan tentang
ketidakpastian dan perasaan dapat menghasilkan beragam inisiatif yang menarik.
8. Komunikasi: Estimasi model dapat disajikan secara visual dengan plot batang
atau sebaliknya.
1. Resolusi data: Bagan kendali dapat menangani data kontinu dan kategorikal.
2. Struktur data: Data yang digunakan dalam obrolan kontrol bisa univariat atau
multivariat.
3. Integrasi data: Diagram kendali dapat dibagi berdasarkan nilai kovariat. Bagan kendali univariat
dasar tidak memberikan pendekatan integrasi data yang efektif.
5. Kronologi data dan tujuan: Diagram kendali memberikan indikasi efektif mengenai perubahan dari
waktu ke waktu atau perbedaan antar topik survei.
6. Generalisasi: Analisis memberikan wawasan yang relevan dengan data yang ada
tanpa teori yang bisa digeneralisasikan.
7. Operasionalisasi: Temuan-temuan ini dengan jelas membedakan efek-efek signifikan dan efek-efek
acak, sehingga membantu para pengambil keputusan untuk memfokuskan upaya perbaikan
mereka secara efektif.
7.6 Ringkasan
Tabel 7.4 menyajikan peringkat untuk masing-masing model yang dijelaskan di Bagian 7.4,
berdasarkan pembahasan di Bagian 7.5, menggunakan delapan dimensi InfoQ. Penilaian tersebut
diperoleh dengan menggunakan skala 1 (“sangat buruk”) hingga 5 (“sangat baik”). Skor InfoQ
keseluruhan, berdasarkan model, dihitung menggunakan cara geometris fungsi keinginan, dalam
persentase. Nilainya berkisar antara 39% hingga 87% dengan model BN menghasilkan kualitas
informasi tertinggi. Penilaian ini bersifat subyektif dan berdasarkan diskusi dengan berbagai ahli.
Model yang memperoleh skor InfoQ tertinggi adalah BN, model regresi, dan diagram kendali.
Bab ini menyajikan tujuh jenis model yang digunakan dalam analisis survei pelanggan. Setiap
model memiliki karakteristik unik yang dinilai menggunakan dimensi InfoQ. Dalam menganalisis survei
pelanggan, serangkaian model dapat meningkatkan InfoQ yang dihasilkan oleh masing-masing model.
Pendekatan seperti ini telah diusulkan oleh Kenett dan Salini (2011a) dengan penerapan pada studi
kasus tertentu. Kemampuan mengintegrasikan berbagai model, dengan kekuatan yang saling
melengkapi, menghadirkan tambahan kemampuan InfoQ, kemampuan mengintegrasikan analisis
dari berbagai model untuk meningkatkan InfoQ secara keseluruhan.
.naiag
ksgg
ailm
isa
le
Q
neg
irb
d
la
u
vo
b
a
inr4
o
lgk
a
fu
n
ean
.m
iS
T
7
b
d
a
p
yI
s
isnQ
emofinDI Q
ishV
ec7
1M
2
3
4
5
6rB
Rg
s.C
U
5
N
E
e.C
a R
S
B
7
isuloasteaR d 5 3 3 5 3 3 5
rutkautratS d 3 4 2 4 2 4 4
isargaeta tndI 3 3 2 4 2 2 4
isla
nraovpem leeRt 5 3 3 4 3 3 3
igoln oananu
ota
jruK
dt 2 2 5 2 3 4
isasilareneG 4 5 5 5 4 3
sasilanoisarepO 3 3 4 3 3 3
87%
isakinumoK 3 4 3 5 2 3 5
QroofknsI
i.ltikahagalg
tw
e
arejn
o
a
rb
ecga
kW
e
m
ia
d
yt
s
Machine Translated by Google
Tanggapan pelanggan, dalam kelompok tertentu, dianalisis menggunakan residu yang disesuaikan
dan, untuk mengoreksi beberapa pengujian, nilai kritis diperoleh dari Bonferroni-
pengujian berbasis untuk menentukan signifikansi residu yang disesuaikan. Jika bias non-respons
yang signifikan ditentukan, estimasi model mungkin perlu dievaluasi dengan memberi bobot pada
respons menggunakan bobot yang ditentukan oleh daftar lengkap pelanggan (kelompok sasaran).
Untuk mengetahui lebih lanjut mengenai pembobotan tanggapan, lihat Bagian 5.4.
Sebagai contoh, perhatikan Tabel A yang menyajikan tanggapan survei kepuasan pelanggan
business to business (B2B) yang ditujukan pada kelompok sasaran yang terdiri dari 586 pelanggan
di enam negara (Knett dan Salini, 2012). Survei diselesaikan oleh 266 pelanggan, dan residu yang
disesuaikan, berdasarkan negara, dicantumkan di kolom Z. Jika n=jumlah total survei yang
dikembalikan (di sini n=266), K=jumlah kategori (di sini K=6), ni =jumlah survei yang kembali dalam
kategori i, dan pi =proporsi kategori i dalam kerangka sampling atau populasi sasaran, i=1, …, K,
maka
n iiE
Z Saya
, saya1,K ,
S Saya
dimana Ei =Npi adalah ekspektasi imbal hasil pada kelompok i dan Si =(Npi (1ÿpi ))1/2 adalah deviasi
standar imbal hasil pada kelompok i, i=1, …, K.
Untuk menentukan signifikansi Zi , diterapkanuji M yang didasarkan pada batas atas Bonferroni.
Jika semua residu yang disesuaikan, Zi , lebih kecil, dalam nilai absolut, dari nilai kritis C, tidak ada
bias signifikan yang dinyatakan. Sel dengan nilai Zi , di atas C atau di bawah ÿC, dinyatakan berbeda
nyata, dan upaya tindak lanjut, seperti pembobotan tanggapan, dimulai. Untuk K=6, C=2,39 dengan
nilai p 5%. Untuk detailnya, lihat Kenett dan Zacks (2014).
Kami melihat bahwa pelanggan dari Perancis kurang terwakili secara signifikan. Mengingat
tingkat respons keseluruhan sebesar 266/586, kami memperkirakan 28 respons pelanggan dari
Perancis, namun dalam praktiknya hanya 15 respons. Residu yang disesuaikan sebesar ÿ2,61 lebih
kecil dari C=ÿ2,39 menunjukkan kurangnya representasi yang signifikan.
Hasil ini memerlukan analisis lanjutan untuk melihat apakah kepuasan responden di Prancis
secara keseluruhan berbeda dengan responden di negara lain. Jika ya, maka diperlukan pembobotan
tanggapan terhadap kepuasan secara keseluruhan agar dapat menyajikan perkiraan yang tidak bias
Tabel A Koreksi pengumpulan postdata untuk bias nonresponse dalam survei kepuasan
pelanggan menggunakan residu yang disesuaikan.