Pemstat-9 (071120)

DATA PROCESSING: ERRORS
AND THEIR CONTROL (Part-

2)
PENGENDALIAN MUTU STATISTIK
PERTEMUAN-9
MATERI
 Coding
 File Preparation
 Applications of Continuous
Quality Improvement: The Case of
Coding
 Integration Activities
PROCESSING ERROR
Table 2. Five Major Sources of Nonsampling Error and Their Potential Causes
CODING
 Coding adalah proses klasifikasi yang dilakukan terhadap
data hasil survey (data mentah yang berupa jawaban dari
pertanyaan terbuka), dengan memberi nomor kode atau
kategori yang sesuai untuk tujuan estimasi, tabulasi, dan
analisis.
 Coding dapat dilakukan secara manual oleh operator
(coder) dan atau secara otomatis menggunakan perangkat
lunak yang dirancang khusus untuk coding.
 Coding mungkin tidak diperlukan untuk semua survei,
namun untuk sebagian besar survei proses coding
merupakan operasi yang sangat penting dan juga
merupakan sumber kesalahan yang berpotensi merusak.
CODING ERROR
The coding operation has three basic input components:
CODING ERROR
Masalah yang bisa terjadi selama proses
coding adalah:
 Coding rentan terhadap kesalahan.
 Mengembangkan operasi coding yang
berkualitas sulit dilakukan karena coding bisa
menjadi aktivitas yang sangat subjektif.
 Operasi pengarsipan coding bisa sangat
besar untuk survei besar dan sulit untuk
dikelola.
CODING ERROR
Variabel yang biasanya memerlukan
coding meliputi:
 industry,
 occupation,
 academic field of study,
 place of work, and
 home purchases
CODING ERROR
Kesalahan pengkodean terjadi jika elemen diberi
nomor kode selain kode yang benar.
1. Seringkali sulit untuk menentukan nomor kode yang
benar, karena ambiguitas dalam respon (jawaban)
atau bahkan karakteristik elemen yang akan
dikodekan.
2. Jawababan yang rinci, jika bisa menyebabkan
masalah dalam menetapkan nomor kode yang benar.
3. Sebagai jawaban, misalkan, pekerjaan mungkin
dikodekan dengan benar namun tetap menjadi
pekerjaan yang salah bagi orang tersebut.
Controlling Manual Coding Error
Pada dasarnya, ada dua metodologi yang
yang tersedia untuk mengendalikan
pengkodean manual:
 dependent verification
 independent verification
Figure 2. Dependent verification of coding

Figure 3. Two-way independent verification with adjudication

Automated Coding
Masalah dalam coding:
• Tingkat kesalahan besar,
• Variasi kualitas yang besar
• Biaya tinggi
Masalah tersebut Menjadi Pertimbangan untuk

menggunakan komputer dalam coding
(mengotomatisasi sebagian proses coding).
Automated Coding
Fitur dasar dari setiap sistem coding otomatis adalah
1. Harus ada kamus atau database komputer yang tersimpan
dalam bentuk kata-kata atau bagian kata dengan nomor kode
yang terkait.
2. Jawaban (respon) masuk secara on-line atau melalui media
lain seperti scanning atau keying.
3. Jawaban (respon) disesuaikan dengan deskripsi kamus,
dan berdasarkan pada aturan pencocokan dan keputusan yang
menyertainya,.
4. Proses coding dievaluasi dan diperbaiki terus menerus
berdasarkan analisis data pada proses kunci,
Automated Coding
There are two types of matching in automated
coding:
1. Exact matching
Respon yang dimasukkan (diinput) harus identik
dengan nomor kode yang ada di kamus.
2. Inexact matching
Respon yang dimasukkan (diinput) dianggap cocok
(match) jika cukup mirip dengan salah satu kode yang
ada di kamus
Automated Coding
Sejumlah key process variables yang perlu dipelajari
selama proses coding otomatis:
 Coding degree (i.e., the proportion of responses coded
automatically).
 Changes in coding degree after dictionary updates.
 Coding degree by category for manual versus automated
coding.
 Cost.
 Coding error rate by coding mode (i.e., manual, CAC,
automated), category, and dictionary update.
 CAC data on how often the system is consulted by the coder.
Automated Coding
 Coding
Codingotomatis
otomatisdapat
dapatdilakukan
dilakukandengan
dengan
pendekatan
pendekatan batch
batchdan
danbantuan
bantuankomputer.
komputer.
 Deskripsi
Deskripsiverbal
verbaldicocokkan
dicocokkandengan
dengankamus
kamus
yang
yangdisimpan
disimpandalam
dalamkomputer,
komputer,dan
danbila
bila
korespondensi
korespondensiditerima,
diterima,perangkat
perangkatlunak
lunak
memilih
memilih atau
atau menyarankan
menyarankan agar
agar nomor
nomor kode
kode
ditetapkan.
ditetapkan.
 Pengkodean
Pengkodeanresidu
residudilakukan
dilakukansecara
secaramanual.
manual.
 Tingkat
Tingkatkesalahan
kesalahantergantung
tergantungpada
padakriteria
kriteria
pencocokan
pencocokanyangyangdigunakan.
digunakan.
File Preparation
Langkah terakhir dalam pengolahan data adalah
penyusunan (penyiapan) file data.
Agar file berfungsi dengan baik, dua hal harus

dilakukan:
1. Setiap unit sampel yang merespons harus diberi bobot
(weighted),
2. Tindakan harus diambil untuk membatasi risiko
pengungkapan informasi pada unit sampel
individual..
File Preparation
Weighting
Prinsip di balik setiap prosedur estimasi dalam survei
sampel probabilitas adalah bahwa setiap unit sampel
mewakili beberapa unit populasi.
 Ketika sampel dipilih dengan kesempatan seleksi
(probabilitas) yang sama, maka mean sampel dan
proporsinya merupakan estimasi yang baik untuk mean dan
proporsi populasi.
 Bila probabilitas seleksi tidak sama, maka masing-masing unit
harus diberi bobot untuk mendapatkan estimasi yang baik.
Ketika penyesuaian bobot cukup rumit, ada risiko bahwa
pembobotan tidak dihitung dengan benar dan dapat
meningkatkan MSE dari estimasi.
File Preparation
Disclosure Avoidance Issues
Hampir semua lembaga statistik nasional dan organisasi
survei lainnya memiliki kebijakan mengenai pelepasan
(diseminasi) macrodata dan microdata kepada pengguna
eksternal.
 Macrodata refers to files containing tabulations, counts,

and frequencies.
 Microdata refers to files containing records that provide
data about individual persons, households,
establishments, or other units.
File Preparation
Disclosure Avoidance Issues
Mengacu pada upaya untuk mengurangi risiko
terungkapnya identitas sampel atau populasi yang
tercantum pada microdata.
 Microdata yang didiseminasikan ke pengguna

tidak boleh terperinci supaya individu dalam
populasi tidak dapat diidentifikasi dan, lebih jauh
lagi, file microdata harus bebas dari informasi
tentang nama, alamat, dan identitas unik
lainnya.
File Preparation
Pengungkapan langsung yang tidak disengaja (inadvertent
direct disclosure (i.d.d.)) terjadi ketika dua hal berikut:
1. Penyusup (yaitu, orang yang mencoba membuat
penyangkalan identitas) mengenali anggota individu dari
populasi yang termasuk dalam file makro atau mikrodata.
2. Penyusup belajar sesuatu tentang anggota populasi yang
dia tidak tahu dari sumber lain.
Ada sejumlah metode yang dikembangkan untuk mengurangi
risiko pengungkapan kerahasiaan data unik individu
(identitas). Metode ini disebut disclosure avoidance
techniques. Metode ini harus diterapkan dalam file
preparation.
File Preparation
Disclosure avoidance techniques.
Methods for Macrodata (untuk tabulasi ):
 cell suppression,
 rolling-up the data, and
 disturbing the data.
Methods for Microdata

Sudah lama diketahui bahwa sulit untuk melindungi mikrodata dari pengungkapan identitas
karena kemungkinan untuk mencocokkan dengan sumber data dari luar (Bethlehem et al.,
1990).
Untuk mengurangi potensi pengungkapan identitas, hampir semua file microdata untuk
penggunaan publik.
1)Hanya mencakup sampel,
2)Tidak menyertakan identitas yang jelas,
3)Detail geografis terbatas,
4)Jumlah variabel terbatas.
File Preparation
Disclosure avoidance techniques.
Metode tambahan yang digunakan untuk menyamarkan
variabel dengan visibilitas tinggi meliputi:
1) Top coding (or bottom coding).
2) Recoding into intervals.
3) Adding or multiplying by random numbers (noise).
4) Menambah atau mengalikan dengan nomor acak (noise).
5) Swapping or rank swapping (also called switching).
6) Blanking out selected variables and imputing for them (also called
blank and impute).
7) Aggregating across small groups of respondents and replacing
one unit’s reported value with the average (also called blurring).
File Preparation
Disclosure
Disclosureavoidance
avoidancetechniques
techniquesdigunakan
digunakan
untuk
untukmelindungi
melindungikerahasiaan
kerahasiaanpenyedia
penyediadata.
data.
Metode
Metodeiniinibisa
bisa diterapkan
diterapkanpada
padamacrodata
macrodatadandan
microdata.
microdata.Adalah
Adalahpenting
pentingbahwa
bahwasetiap
setiap
organisasi
organisasisurvei
surveimematuhi
mematuhiperaturan
peraturan
perlindungan
perlindungandata
datayang
yangtelah
telahdiputuskan
diputuskanuntuk
untuk
masing-masing
masing-masingnegara.
negara.
Applications of Continuous Quality
Improvement: The Case of Coding
Salah satu cara untuk menurunkan biaya verifikasi adalah

dengan mengatur verifikasi berdasarkan sampling dengan
menggunakan teori pengendalian kualitas statistik.
The major quality control methods available are:

 acceptance sampling,
 process control, and
 combinations of the two.
Acceptance sampling
Figure 4. Acceptance sampling for samples of size n from lots of

size N using acceptance number c.
Beberapa argumen menentang Acceptance sampling

 Pemeriksaan massal mahal karena tim pengukur
diperlukan untuk memeriksa pekerjaan dan karena ini
menyebabkan pengerjaan ulang beberapa unit kerja.
 Studi pengkodean telah menunjukkan bahwa verifikasi
dependen seringkali tidak efektif dalam mengidentifikasi
kesalahan.
 Tanggung jawab untuk meningkatkan kualitas diberikan
pada verifier, bukan coder.
 Operator coding bertanggung jawab atas semua kesalahan
yang ditemukan oleh penguji.
Penyebab kesalahan mungkin bukan operator tapi,

sebaliknya, cara pengoperasian yang dilakukannya.
Inspeksi tampaknya mengabaikan fakta ini, yang terutama
merupakan alasan bahwa sejumlah pakar mutu telah
menyatakan bahwa kualitas tidak dapat dicapai melalui
inspeksi.
Two types of variation in the quality of some output from an

operation:
1. Penyebab khusus Variasi
Bisa timbul karena kesalahan yang dilakukan oleh
masing-masing coders
2. Penyebab umum variasi

Karena proses itu sendiri
Figure 5. Continuous quality improvement. input, tindakan, dan output

pengoperasain dapat dikaitkan dengan input, tindakan, dan output yang
diinginkan. Dengan setiap siklus pengoperasian, operasi yang sebenarnya
dibawa mendekati operasi yang diinginkan dengan mengurangi jumlah perbedaan
(ketidaksesuaian) diantara keduanya..
 CQI (Continuous Quality Improvement) secara fundamental berbeda

dengan metode inspeksi.
 CQI menggunakan pendekatan tim untuk meningkatkan kualitas
berdasarkan pada asumsi bahwa peningkatan kualitas data
merupakan proses yang berulang.
 Ide dasar CQI ditunjukkan pada Gambar 5.
 Gambar 5 menunjukkan operasi khas yang terdiri dari beberapa input,
diikuti oleh tindakan operator, yang menghasilkan output dari proses.
 Ada proses aktual yang saat ini sedang dilaksanakan dan ada proses
ideal atau yang diinginkan.
 Proses yang terakhir adalah proses yang bebas dari ketidaksesuaian
dalam bentuk apapun (yaitu, sebuah proses yang tidak memiliki atau
sedikit kesalahan).
Setiap perbedaan antara proses aktual dan yang diinginkan harus

dieliminasi dengan pendekatan lima langkah berikut ini:
1. Lakukan satu siklus operasi.
2. Identifikasi ketidaksesuaian dalam operasi berdasarkan hasil dari
siklus yang sedang berjalan.
3. Temukan akar penyebab ketidaksesuaian melalui proses yang
melibatkan tim yang anggotanya mewakili semua personil yang
berpotensi mempengaruhi kualitas operasi.
4. Hilangkan akar penyebab ketidaksesuaian dengan beberapa
jenis aktivitas atau perubahan dalam operasi.
5. Kembali ke langkah pertama untuk mengulangi proses ini untuk
siklus operasi yang baru.
 Dengan demikian, CQI dapat dianggap sebagai

proses yang secara terus menerus menghilangkan
ketidaksesuaian dalam suatu proses operasi
sehingga operasi semakin mendekati operasi ideal.
 Karena operasi yang ideal adalah sesuatu yang
secara esensial tidak memiliki kekurangan
(biasanya tujuan tidak dapat dicapai), sehingga CQI
terus berlanjut dan tidak pernah berakhir.
Pareto principle
 Sebuah strategi yang diperlukan untuk menentukan
ketidaksesuaian mana yang harus diatasi pada setiap
siklus.
 Gagasan penting dari prinsip Pareto adalah bahwa
ketidaksesuaian dalam suatu operasi digolongkan
paling penting sampai yang penting. Pemecahan
masalah dimulai dari yang paling penting terlebih
dahulu.
Pareto principle
 Prinsip Pareto, kadang-kadang disebut peraturan
80/20; Artinya, 80% masalah dalam sebuah operasi
timbul dari 20% ketidaksesuaian (atau kesalahan).
 Prinsip Pareto menunjukkan bahwa 20% aktivitas
yang dilakukan operator dalam suatu operasi
bertanggung jawab atas 80% kesalahan yang
dilakukan oleh operator.
Pareto principle
Figure 6 Pareto chart.

Biemer and Caspar (1994) describe an application of CQI for

industry and occupation coding, their approach can be summarized
as follows:
1) Operasi coding dilakukan dalam jangka waktu satu minggu dan dibuat daftar
semua nomor kode (kategori) yang dikodekan dengan setidaknya satu
kesalahan.
2) Analisis Pareto dilakukan untuk mengidentifikasi nomor kode yang paling
sering miscoded.
3) Tim coding yang berkualitas membahas nomor kode dan penyebab
kesalahan secara lebih rinci.
4) Tindakan diambil untuk menerapkan langkah-langkah perbaikan yang
ditentukan oleh tim coding tersebut.
5) Dilakukan pengukuran Efek dari penerapan langkah-langkah perbaikan.
Figure 7.7 Coding error rates for (a) industry and (b) occupation during a one-
year trial with continuous quality improvement. [From Biemer and Caspar
(1974).]
Integration Activities
 Secara tradisional, pengolahan data dilakukan di fasilitas terpusat
dengan proses terpisah untuk setiap operasi.
 Pengolahannya dilakukan secara berurutan, mirip dengan jalur
perakitan.
 Setiap operasi mungkin memiliki satu set manual (pedoman)
dengan spesifikasi yang menjelaskan bagaimana operator dan
operasi seharusnya berfungsi.
 Banyak kelompok orang yang terlibat untuk mentransfer sejumlah
besar data pada setiap proses
 Sejumlah penulis telah membahas kebutuhan untuk
mengintegrasikan operasi yang dilakukan dalam tahap pengolahan
data serta seluruh tahapan proses survei; see, for example,
Bethlehem (1997), Shanks (1989), Keller (1994, 1995), Pierzchala (1990),
Baker (1994), and Weeks (1992).
Integration Activities
• Pengolahan interaktif akan menggantikan pemrosesan secara batch
sebagai standar operasi..
• Integrasi langkah pemrosesan yang lebih besar dapat dilakukan pada
proses pengolahan data, seperti entri data, pengeditan, tabulasi, dan
estimasi.
• Statistics Netherlands memiliki pusat kendali yang berupa a user-friendly

shell untuk mengambil (mengakses) data survei melalui berbagai langkah
pemrosesan yang diperlukan. Selain itu, pusat kendali tersebut dapat
menghasilkan file data dan metadata dalam format apapun, sehingga
memudahkan proses analisis..
• Pekerjaan serupa dalam pengembangan perangkat lunak pengolahan

survei secara umum juga dilakukan di lembaga lain, misalnya Statistics
Canada (Turner, 1994) and Statistics Sweden (Blom and Lyberg, 1998).
Terimakasih

Pemstat-9 (071120)

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Pemstat-9 (071120)

Diunggah oleh

Hak Cipta:

Format Tersedia

DATA PROCESSING: ERRORS

AND THEIR CONTROL (Part-

Figure 2. Dependent verification of coding

Figure 3. Two-way independent verification with adjudication

Masalah tersebut Menjadi Pertimbangan untuk

Agar file berfungsi dengan baik, dua hal harus

 Macrodata refers to files containing tabulations, counts,

 Microdata yang didiseminasikan ke pengguna

Methods for Microdata

Salah satu cara untuk menurunkan biaya verifikasi adalah

The major quality control methods available are:

Figure 4. Acceptance sampling for samples of size n from lots of

Beberapa argumen menentang Acceptance sampling

Penyebab kesalahan mungkin bukan operator tapi,

Two types of variation in the quality of some output from an

2. Penyebab umum variasi

Figure 5. Continuous quality improvement. input, tindakan, dan output

 CQI (Continuous Quality Improvement) secara fundamental berbeda

Setiap perbedaan antara proses aktual dan yang diinginkan harus

 Dengan demikian, CQI dapat dianggap sebagai

Figure 6 Pareto chart.

Biemer and Caspar (1994) describe an application of CQI for

• Statistics Netherlands memiliki pusat kendali yang berupa a user-friendly

• Pekerjaan serupa dalam pengembangan perangkat lunak pengolahan

Anda mungkin juga menyukai