Anda di halaman 1dari 19

Cleaning Data (Pembersihan data)

Cleaning data adalah proses pengecekan data untuk penetapan dan pemulihan data yang hilang,
pengecekan penentapan meliputi pemerikasaan data yang out of range (di luar cakupan), tidak
konsisten secara logika, ada nilai-nilai ekstrim, data dengan nilai-nilai tdk terdefinisi, sedangkan
pemulihan data yang hilang adalah nilai dari suatu variabel yang tidak diketahui dikarenakan
jawaban responden yang membingungkan. Untuk mengatasi treatmen yang hilang dapat dilakukan
beberapa cara untuk mengatasinya adalah:
Substitusi dengan nilai yang netral
Jawaban substitusi yang dimasukkan berdasarkan pola jawaban responden pada pertanyaan-
pertanyaan lain
Menghilangkan beberapa kasus, responden yang banyak tidak memberikan response di buang
dari analisis (bila hanya sedikit/bila jumlahnya banyak dapat dikelompokkan sendiri)
Penghapusan sebagian; untuk responden yang mempunyai nilai-nilai missing tidak langsung
dibuang tetapi diambil sebagian dan dianalisis untuk bagian yang lengkap nilainya, hasil analisis
didasarkan ukuran sampel berbeda bila ukuran sampel besar, ada sedikit saja yangmissing,
variabel-variabelnya tidak terlalu berhubungan



Data [yang] membersihkan, juga disebut gosokan atau pembersihan data, berhadapan dengan
mendeteksi dan memindahkan kesalahan dan inconsistencies dari data dalam rangka meningkatkan
mutu data. mutu data Permasalahan adalah kehadiran tunggal pengumpulan data, seperti database dan
file, e.g., dalam kaitan dengan salah ejaan selama masukan data, yang hilang informasi atau data cacat
lain. Ketika berbagai sumber data perlu untuk terintegrasi, e.g., di (dalam) gudang data, menyatukan
sistem database atau sistim informasi web-based global, kebutuhan akan data [yang] membersihkan
peningkatan [yang] dengan mantap. Ini adalah sebab sumber sering berisi data berlebih lebihan di
(dalam) penyajian berbeda. Dalam rangka menyediakan akses ke data konsisten dan akurat, konsolidasi
dari penghapusan dan penyajian data yang berbeda tentang informasi salinan menjadi perlu.



Definisi
Data Cleaning atau Pembersihan data atau data menggosok adalah tindakan
mendeteksi dan memperbaiki (atau menghapus) record korup atau tidak akurat dari
mengatur catatan, tabel, atau database. Yang digunakan terutama di database, istilah
ini mengacu pada identifikasi tidak lengkap, tidak benar, tidak tepat, tidak relevan dll
bagian data dan kemudian mengganti, memodifikasi atau menghapus data ini kotor.
Setelah membersihkan, kumpulan data akan konsisten dengan data sejenis lainnya
dalam sistem set. Inkonsistensi dideteksi atau dihapus mungkin awalnya disebabkan
oleh data yang berbeda definisi kamus dari entitas yang sama di toko berbeda,
mungkin telah disebabkan oleh kesalahan pengguna masuk, atau mungkin telah rusak
dalam transmisi atau penyimpanan. pembersihan data berbeda dari validasi data dalam
validasi yang hampir selalu berarti data ditolak dari sistem pada entri dan dilakukan
pada waktu masuk, bukan pada batch data.
Proses pembersihan data aktual mungkin melibatkan menghapus kesalahan ketik atau
memvalidasi dan nilai-nilai koreksi terhadap daftar dikenal entitas. validasi mungkin
ketat (seperti menolak semua alamat yang tidak memiliki kode pos yang valid) atau
fuzzy (seperti mengoreksi catatan bahwa secara parsial sesuai dengan yang ada,
catatan diketahui).
Motivasi
Secara administratif, data yang tidak benar atau tidak konsisten dapat mengakibatkan
kesimpulan palsu dan salah arah investasi pada kedua publik dan swasta skala.
Misalnya, pemerintah mungkin ingin menganalisis jumlah penduduk sensus untuk
menentukan daerah membutuhkan pengeluaran lebih lanjut dan investasi pada
infrastruktur dan layanan. Dalam hal ini, akan sangat penting untuk memiliki akses ke
data yang dapat dipercaya untuk menghindari keputusan fiskal yang salah.
Dalam dunia bisnis, data yang tidak benar dapat mahal. Banyak perusahaan
menggunakan database pelanggan yang mencatat data informasi seperti informasi
kontak, alamat, dan preferensi. Jika misalnya alamat yang tidak konsisten, perusahaan
akan menanggung biaya kirim kembali mail atau bahkan kehilangan pelanggan.
Kualitas data
Data berkualitas tinggi harus dilalui seperangkat kriteria kualitas. Mereka termasuk:
1. Akurasi: Sebuah nilai agregat atas kriteria integritas, konsistensi dan kepadatan
2. Integritas: Sebuah nilai agregat atas kriteria kelengkapan dan validitas
3. Kelengkapan: Meraih dengan memperbaiki data yang mengandung anomali
4. Validitas: didekati dengan jumlah data yang memuaskan batasan integritas
5. Konsistensi: kontradiksi Kekhawatiran dan sintaksis anomali
6. Keseragaman: langsung berhubungan dengan penyimpangan
7. Kepadatan: quotient nilai-nilai yang hilang dalam data dan jumlah total nilai
yang harus diketahui
8. Keunikan: Terkait dengan jumlah data duplikat
Proses pembersihan data
Audit data: Data diaudit dengan menggunakan metode statistik untuk mendeteksi
anomali dan kontradiksi. Hal ini pada akhirnya memberikan indikasi karakteristik
anomali dan lokasi mereka.
Workflow spesifikasi: Deteksi dan penghapusan anomali dilakukan oleh urutan
operasi pada data yang dikenal sebagai alur kerja. Hal ini ditetapkan setelah proses
audit data dan sangat penting dalam mencapai produk akhir data berkualitas tinggi.
Untuk mencapai sebuah alur kerja yang tepat, penyebab dari anomali dan kesalahan
dalam data harus cermat dipertimbangkan. Kalau misalnya kita menemukan bahwa
anomali tersebut merupakan hasil dari mengetik kesalahan dalam tahap input data,
tata letak keyboard yang dapat membantu dalam mewujudkan solusi yang mungkin.
Workflow pelaksanaan: Pada tahap ini, alur kerja dijalankan setelah spesifikasinya
adalah lengkap dan benar-nya diverifikasi. Pelaksanaan alur kerja harus efisien
bahkan pada set besar data yang pasti menimbulkan trade-off karena pelaksanaan
operasi pembersihan data dapat komputasi mahal.
Pasca Pengolahan dan Pengendalian: Setelah menjalankan alur kerja pembersihan,
hasilnya diperiksa untuk memverifikasi kebenaran. Data yang tidak dapat dikoreksi
selama pelaksanaan alur kerja secara manual dikoreksi bila mungkin. Hasilnya adalah
sebuah siklus baru dalam proses pembersihan data di mana data yang diaudit lagi
untuk mengizinkan spesifikasi sebuah alur kerja tambahan untuk lebih membersihkan
data dengan pemrosesan otomatis.
Metode yang populer digunakan
1. Parsing: Parsing pembersihan data dilakukan untuk mendeteksi kesalahan
sintaks. parser Sebuah memutuskan apakah suatu string data dapat diterima
dalam spesifikasi data diizinkan. Hal ini mirip dengan cara parser yang bekerja
dengan tata bahasa dan bahasa.
2. Transformasi data: Data Transformasi memungkinkan pemetaan data dari
format mereka diserahkan ke dalam format yang diharapkan oleh aplikasi yang
sesuai. Ini termasuk konversi nilai atau fungsi terjemahan serta normalisasi
nilai numerik agar sesuai dengan nilai-nilai minimum dan maksimum.
3. Gandakan Eliminasi: Gandakan deteksi membutuhkan algoritma untuk
menentukan apakah data berisi duplikat representasi dari entitas yang sama.
Biasanya, data diurutkan dengan kunci yang akan membawa lebih dekat entri
ganda bersama untuk identifikasi lebih cepat.
4. Metode Statistik: Dengan menganalisis data menggunakan nilai-nilai deviasi
mean, standar, jangkauan, atau algoritma clustering, adalah mungkin bagi
seorang ahli untuk menemukan nilai-nilai yang tak terduga dan dengan
demikian salah. Meskipun koreksi data tersebut sulit karena nilai sebenarnya
tidak diketahui, hal itu dapat diatasi dengan menetapkan nilai-nilai ke nilai
statistik rata-rata atau lainnya. metode statistik juga dapat digunakan untuk
menangani nilai yang hilang dapat digantikan oleh satu atau lebih nilai masuk
akal yang biasanya diperoleh oleh algoritma augmentasi data yang ekstensif.
Alat yang ada
Sebelum data otomatisasi komputer mengenai perorangan atau organisasi yang
dipelihara dan dijamin sebagai catatan kertas, didispersikan dalam bisnis terpisah atau
unit organisasi. Sistem Informasi berkonsentrasi data dalam file komputer yang
berpotensi dapat diakses oleh sejumlah besar orang dan oleh kelompok-kelompok di
luar organisasi.
Tantangan dan masalah
Koreksi Kesalahan dan hilangnya informasi: Masalah yang paling menantang dalam
pembersihan data tetap koreksi nilai untuk menghapus duplikat dan masukan yang
salah. Dalam banyak kasus, informasi yang tersedia di anomali tersebut terbatas dan
tidak cukup untuk menentukan transformasi yang diperlukan atau koreksi
meninggalkan penghapusan entri seperti satu-satunya solusi yang masuk akal.
Penghapusan data meskipun, menyebabkan hilangnya informasi yang bisa sangat
mahal jika ada sejumlah besar data dihapus.
Pemeliharaan dibersihkan Data: Data pembersihan adalah proses mahal dan memakan
waktu. Jadi setelah dilakukan pembersihan data dan pengumpulan data mencapai
bebas dari kesalahan, orang akan ingin menghindari pembersihan kembali data secara
keseluruhan setelah beberapa perubahan nilai dalam pengumpulan data. Proses ini
hanya harus diulang pada nilai-nilai yang telah berubah yang berarti bahwa garis
keturunan pembersihan perlu disimpan yang efisien akan memerlukan pengumpulan
data dan teknik manajemen.
Data Pembersihan di Lingkungan Terpadu Hampir: Dalam hampir Sumber
terintegrasi seperti DiscoveryLink IBM, pembersihan data harus dilakukan setiap kali
data itu diakses yang sangat mengurangi waktu respon dan efisiensi.
Data Cleansing Framework: Dalam banyak kasus tidak akan mungkin untuk
memperoleh data lengkap pembersihan grafik untuk membimbing proses tersebut di
muka. Hal ini membuat pembersihan data proses berulang-ulang yang melibatkan
eksplorasi yang signifikan dan interaksi yang mungkin memerlukan kerangka kerja
dalam bentuk kumpulan metode untuk mendeteksi kesalahan dan eliminasi di samping
audit data. Ini dapat diintegrasikan dengan data lainnya seperti pengolahan tahap
integrasi dan pemeliharaan.
Sumber ; http://en.wikipedia.org





Pembersihan data (cleaning data)
Cleaning (pembersihan data) merupakan kegiatan pengecekan kembali data yang sudah
dimasukkan apakah ada kesalahan atau tidak

a. Mengetahui missing data
Cara mendeteksi adanya missing data adalah dengan melakukan list(distribusi frekuensi) dari variabel
yang ada.

Tabel 1. Alasan Jamban tidak Mempunyai Tangki Septik(11)


Frequency Percent Cumulative
Percent

Valid


Dana kurang 53 53.0 98.2
Tidak
memungkinkan
1 1.0 100.0
Total 54 54.0
Missing System 46 46.0
Total 100 100.0
** SPSS Output

Data di atas terdapat 46 missing data. Hal ini disebabkan 46 responden tersebut mempunyai Jamban
tetapi jamban tanpa Tangki Septik.

b. Mengetahui variasi data
Dengan mengetahui variasi data akan diketahui apakah data yang dientry benar atau salah. Dalam entry
data biasanya data dimasukkan dalam bentuk koding, misal, data status anemia: 1. anemia, 2. Normal.

Tabel 1. Status Anemia (10)

** SPSS Output

Data di atas variasi data ada 2 yaitu 1= anemia dan 2=normal, tetapi ada kesalahan dalam entry data di
atas. Muncul angka 3, sebaiknya data harus diperiksa ulang lagi.

c. Mengetahui konsistensi data
Cara mendeteksi adanya ketidak konsistensi data dengan menghubungkan 2 variabel. Variasi data di
tabel 3 terlihat tidak adanya konsistensi antara tabel Keikutsertaan KB dan Jenis Alat Kontrasepsi. Yang
bukan peserta KB terdapat 33 responden tetapi pada tabel berikutnya pada penggunaan jenis alat
kontrasepsi tidak pakai hanya ada 31 responden.
Tabel 4. Keikutsertaan KB dan Jenis Alat Kontrasepsi (10)


** SPSS Output
































Data [yang] menyaring ( kadang-kadang dikenal sebagai " data [yang] menjerit") menjadi proses dalam
memastikan data mu adalah membersihkan dan siap untuk pergi [sebelum/di depan] kamu melakukan
analisa statistik lebih lanjut . Data harus disaring dalam rangka memastikan data bisa menggunakan,
dapat dipercaya, dan [yang] sah untuk pengujian teori menyebabkan. Di (dalam) bagian I ini akan
memusatkan pada [atas] enam isu spesifik yang perlu untuk ditujukan ketika pembersihan ( tidak
memasak) data mu.

Yang hilang Data

Jika kamu adalah yang hilang banyak data mu, ini dapat menyebabkan beberapa permasalahan.
masalah [yang] Yang paling nyata adalah bahwa [di/ke] sana sederhananya tidak akan (adalah) cukup
data menunjuk untuk berlari analisa mu. EFA, CFA, dan model alur memerlukan suatu jumlah tertentu
poin-poin data dalam rangka menghitung perkiraan. Nomor;Jumlah ini meningkat/kan dengan
kompleksitas [dari;ttg] model mu. Jika kamu adalah yang hilang beberapa nilai-nilai di (dalam) data mu,
analisa [hanya;baru saja] tidak akan berlari.

Apalagi, hilang data mungkin menghadirkan isu penyimpangan. Sebagian orang tidak boleh sudah
menjawab pertanyaan tertentu di (dalam) survei mu oleh karena beberapa isu umum. Sebagai contoh,
jika kamu [minta;tanya] sekitar jenis kelamin, dan wanita adalah lebih sedikit mungkin untuk melaporkan
jenis kelamin mereka dibanding [jantan/pria], kemudian kamu akan mempunyai data male-biased.
Barangkali hanya 50% tentang wanita melaporkan jenis kelamin mereka, tetapi 95% tentang [jantan/pria]
melaporkan jenis kelamin. Jika kamu menggunakan jenis kelamin di (dalam) model menyebabkan mu,
kemudian kamu akan [jadi] dengan berat dibiaskan ke arah [jantan/pria], sebab kamu tidak akan berakhir
menggunakan tanggapan yang tidak dilaporkan.

Untuk menemukan berapa banyak yang hilang menilai masing-masing variabel telah, di (dalam) SPSS
pergi ke Neliti, kemudian Statistik deskriptif, kemudian Frekwensi. Variabel di (dalam) daftar variabel.
Kemudian klik OK. [Tabel;Meja] di (dalam) keluaran akan menunjukkan banyaknya yang hilang nilai-nilai
untuk masing-masing variabel. Screenshots di bawah.


Ambang pintu untuk yang hilang data fleksibel, tetapi biasanya, jika kamu adalah yang hilang lebih dari
10% tentang tanggapan pada [atas] variabel tertentu , atau dari responden tertentu , yang [itu] responden
atau variabel mungkin (adalah) meragukan. Ada beberapa jalan untuk berhubungan dengan variabel
meragukan.

[Hanya;Baru saja] tidak menggunakan variabel itu.
Jika [itu] bisa dipertimbangkan, menyalahkan yang hilang nilai-nilai. Ini perlu hanya dilaksanakan untuk
[yang] berlanjut atau data interval ( seperti [umur/zaman] atau Likert-Scale tanggapan), [yang] bukan
untuk data pasti/mutlak ( [seperti;suka] jenis kelamin).
Jika dataset mu adalah besar cukup, [hanya;baru saja] tidak menggunakan tanggapan yang mempunyai
yang hilang menilai untuk variabel itu. Ini boleh menciptakan suatu penyimpangan, bagaimanapun, jika
banyaknya yang hilang tanggapan adalah lebih besar dibanding 10%.
Untuk menyalahkan nilai-nilai di (dalam) SPSS, pergi ke Ubah bentuk, Menggantikan Yang hilang Nilai-
Nilai; kemudian memilih variabel yang memerlukan menyalahkan, dan memukul OK. [Itu] screenshots di
bawah. Di (dalam) screenshot ini, aku menggunakan rata-rata metoda penggantian. Tetapi ada pilihan
lain, mencakup angka median Penggantian. [Yang] secara khas dengan Likert-Type data, kamu ingin
menggunakan angka median penggantian, sebab alat-alat adalah lebih sedikit penuh arti di (dalam)
skenario ini. Karena lebih [] informasi pada [atas] ketika untuk menggunakan yang (mana) jenis
tuduhan/penuduhan, mengacu pada: Mbunuh beramai-ramai ( 2003)






Penanganan responden meragukan adalah sedikit banyak(nya) [yang] lebih sulit. Jika suatu responden
tidak menjawab suatu porsi [yang] besar [menyangkut] pertanyaan, tanggapan [yang] lain mereka
mungkin (adalah) sia-sia ketika [itu] datang untuk menguji model menyebabkan. Sebagai contoh, jika
mereka menjawab pertanyaan tentang diet, tetapi bukan tentang kerugian berat/beban, untuk/karena
individu ini [yang] kita tidak bisa menguji suatu model menyebabkan yang membantah diet itu mempunyai
suatu hal positif mempengaruhi pada [atas] kerugian berat/beban. Kita sederhananya tidak mempunyai
data untuk orang itu. Pujian/Rekomendasi ku akan pertama menentukan variabel yang (mana) akan
sungguh-sungguh digunakan di (dalam) model mu ( sering kita mengumpulkan data pada [atas] lebih []
variabel dibanding kita benar-benar berakhir penggunaan di (dalam) model [kita/kami]), kemudian
menentukan jika responden meragukan. Jika demikian, kemudian memindahkan responden itu dari
analisa.

Outliers dapat mempengaruhi hasil mu, penarikan rata-rata [men]jauh dari angka median [itu]. Dua jenis
outliers ada: outliers untuk variabel individu, dan outliers untuk model.

Univariate
Univariate Outliers
Untuk mendeteksi outliers pada [atas] masing-masing variabel, [hanya;baru saja] menghasilkan suatu
boxplot di (dalam) SPSS ( [seperti/ketika] dipertunjukkan di (dalam) video). Outliers akan nampak di yang
ekstrim, dan akan [jadi] diberi label, seperti di figur di bawah. Jika kamu mempunyai suatu ukuran contoh
[yang] tinggi, kemudian kamu boleh ingin memindahkan [itu] outliers. Jika kamu adalah bekerjasama
dengan suatu dataset lebih kecil, kamu boleh ingin lebih sedikit liberal tentang penghapusan arsip.
Bagaimanapun, ini adalah suatu menjual, sebab outliers akan mempengaruhi kecil datasets lebih dari
yang besar. [Yang] akhirnya, outliers tidak benar-benar ada di (dalam) Likert-Scales. Menjawab di yang
ekstrim ( 1 atau 5) tidaklah benar-benar wakil outlier perilaku.

Yang lain jenis outlier adalah suatu responden tidak ditautkan. Kadang-Kadang responden akan masuk '
3, 3, 3, 3,...' untuk/karena tiap-tiap item survei tunggal. Peserta ini dengan jelas tidak ditautkan, dan
tanggapan mereka akan mengeluarkan hasil mu. Pola teladan lain yang bersifat menandakan responden
tidak ditautkan adalah ' 1, 2, 3, 4, 5, 1, 2,...' atau ' 1, 1, 1, 1, 5, 5, 5, 5, 1, 1,...'. Ada berbagai jalan untuk
mengidentifikasi dan menghapuskan responden tidak ditautkan ini:

Liputi perhatian menjerat permintaan itu [adalah] responden untuk " menjawab sedikit banyak(nya)
setuju untuk item ini jika kamu sedang memperhatikan". Aku pada umumnya meliputi sebanyak dua ini di
(dalam) arah kebalikan ( yaitu., orang kata[kan sedikit banyak(nya) setuju dan orang kata[kan sedikit
banyak(nya) tidak sependapat) pada sekitar sepertiga dan dua pertiga [menyangkut] jalan/cara
melalui/sampai survei ku. Aku selalu sangat dikejutkan pada berapa banyak aku menangkap lewat dari
sini...
Jika peserta menjawab pertanyaan reverse-coded ke arah yang sama [sebagai/ketika] pertanyaan
normal. Sebagai contoh, jika mereka menjawab betul-betul setuju [bagi/kepada] kedua-duanya materi ini,
kemudian mereka tidaklah memperhatikan: " Aku adalah [yang] sangat lapar", " Aku tidak mempunyai
banyak selera segera".
Uji simpangan baku [dari;ttg] tanggapan mereka ( jika semua pada [atas] skala yang sama (
[seperti;suka] 1-5)). Jika mereka memperlihatkan suatu simpangan baku sangat rendah ( seperti kurang
dari 0.500 pada [atas] suatu 5-point skala, atau 0.700 pada [atas] suatu 7-point skala), kemudian mereka
mungkin tidak memperhatikan, dan tanggapan mereka adalah sia-sia kepada [kita/kami] bagaimanapun
[karena;sejak] mereka tidak memperlihatkan manapun perbedaan.


Multivariate

Mendeteksi Multivariate Yang berpengaruh Outliers
Multivariate outliers mengacu pada arsip yang tidak cocok standard satuan korelasi yang diperlihatkan
oleh arsip yang lain di (dalam) dataset, dengan salam ke model menyebabkan mu. Maka, jika nyaris
seseorang di (dalam) dataset melaporkan bahwa diet mempunyai suatu hal positif mempengaruhi pada
[atas] kerugian berat/beban, tetapi yang ini orang melaporkan bahwa ia memperoleh berat/beban ketika
ia diet, kemudian [record/ catatan] nya akan dipertimbangkan suatu multivariate outlier. Untuk mendeteksi
multivariate [yang] berpengaruh ini outliers, kamu harus mengkalkulasi [itu] Mahalanobis d-squared. Ini
adalah suatu perihal sederhana di (dalam) AMOS. video Pengajaran tambahan untuk yang tertentu.
Sebagai peringatan bagaimanapun, aku hampir tidak pernah menunjuk multivariate outliers, karena (itu)
adanya sangat sukar untuk membenarkan pemindahan [mereka/nya] hanya karena mereka tidak
[tanding/ temu] teori mu. [Yang] apalagi, kamu akan hampir selalu temukan multivariate outliers,
sekalipun kamu memindahkan [mereka/nya], lebih [] akan muncul. [Ini] merupakan suatu keserongan
licin.


Kewajaran

Pendeteksian Kewajaran Isu
Kewajaran mengacu pada distribusi dari data untuk variabel tertentu . Kita pada umumnya berasumsi
bahwa data secara normal dibagi-bagikan, sungguhpun [itu] pada umumnya bukanlah! Kewajaran ditaksir
melalui banyak cara: membentuk, kecondongan, dan kurtosis ( flat/peaked).

Bentuk: Untuk menemukan bentuk dari distribusi di (dalam) SPSS, membangun suatu histogram (
[seperti/ketika] ditunjukkan di (dalam) pengajaran tambahan video) dan merencanakan kurva yang
normal [itu]. Jika histogram tidak memenuhi kurva yang normal, kemudian kamu mungkin mempunyai isu
kewajaran. Kamu dapat juga lihat di boxplot untuk menentukan kewajaran.
Kecondongan: Kecondongan berarti [bahwa/yang] tanggapan tidak jatuh masuk ke suatu agihan normal,
tetapi dengan berat dihargai ke arah [satu/ orang] akhir [menyangkut] skala [itu]. Pendapatan adalah
suatu contoh suatu variabel skewed [yang] benar; kebanyakan orang-orang membuat antar[a] 20 dan 70
ribu dolar di (dalam) AS, tetapi ada kelompok lebih kecil yang membuat antar[a] 70 dan 100, dan suatu
bahkan kelompok lebih kecil yang membuat antar[a] 100 dan 150, dan suatu kelompok jauh lebih kecil
yang membuat antar[a] 150 dan 250, dan lain lain semua jalan sampai kepada Ruu;Rekening Gerbang
dan Tanda Zuckerberg. Kecondongan sangat sedikit penuh arti pada [atas] short-interval nomor urut
ukuran ( [seperti;suka] 5-Point Likert timbangan), seperti semua kekejaman di (dalam) kecondongan
menjadi lebih baik ditangkap melalui/sampai kurtosis. Menujukan kecondongan boleh memerlukan
perubahan bentuk [dari;ttg] data mu, atau berpengaruh pemindahan outliers. Ada dua aturan pada [atas]
Kecondongan:
( 1)If nilai kecondongan mu adalah lebih besar dibanding 1 kemudian kamu adalah hal positif ( benar)
skewed, jika [itu] kurang dari - 1 kamu adalah hal negatif ( yang ditinggalkan) skewed, jika [itu] di
tengahnya, kemudian kamu bagus.
( 2)If nilai mutlak TERPOTONG. ALINEA TERLALU BESAR,


Bimodal:
Satu isu lain [yang] kamu boleh menumbuk dengan distribusi [dari;ttg] data mu adalah suatu bimodal
distribusi. Alat-Alat ini [bahwa/yang] data mempunyai berbagai ( dua orang) mencapai puncak,
dibanding/bukannya mencapai puncak di rata-rata. Ini boleh menandai (adanya) ada sedang
melembutkan variabel [yang] mengakibatkan data ini. Suatu bimodal distribusi kelihatan seperti ini:

Perubahan bentuk:

Kapan kamu sudah data sangat tidak normal, [itu] akan mempengaruhi kemunduran mu di (dalam)
SPSS dan AMOS. Dalam kasus yang sedemikian , jika kamu mempunyai variabel non-Likert-scale (
maka, variabel suka [umur/zaman], pendapatan, pendapatan, dll.), kamu dapat mengubah bentuk
[mereka/nya] sebelum termasuk [mereka/nya] di (dalam) model mu. Gary Templeton telah menerbitkan
suatu artikel sempurna pada [atas] ini dan menciptakan suatu Youtube video menunjukkan bagaimana
cara melakukan perubahan bentuk [itu]. Ia juga acuan artikel nya di (dalam) video [itu].


Linearitas

Linearitas mengacu pada keserongan perubahan [yang] yang konsisten yang menghadirkan hubungan
antar[a] suatu IV dan suatu DV. Jika hubungan antar[a] IV dan DV secara radikal bertentangan/tidak
tetap, kemudian [itu] akan mengeluarkan SEM analisa mu. Ada dosin jalan untuk menguji untuk
linearitas. Barangkali [yang] yang paling rapi ( gampang dan membersihkan, sekalipun begitu (yet) kaku),
menjadi penyimpangan dari linearitas menguji tersedia di (dalam) ANOVA menguji di (dalam) SPSS. Di
(dalam) SPSS pergi ke Meneliti, Bandingkan Alat-Alat, Alat-Alat. yang diletakkan Gabungan IVS dan DVS
di (dalam) daftar, kemudian klik pada [atas] pilihan, dan memilih " Uji untuk Linearitas". Kemudian di
(dalam) ANOVA [tabel;meja] di (dalam) jendela keluaran, jika Sig menghargai untuk Penyimpangan dari
Linearitas kurang dari 0.05, hubungan antar[a] IV dan DV tidaklah linier, dan begitu meragukan ( lihat
screenshots di bawah). Isu kaleng linearitas kadang-kadang ditetapkan;perbaiki dengan pemindahan
outliers ( jika arti adalah borderline), atau melalui/sampai menjelmakan data [itu]. Di (dalam) screenshot di
bawah, kita dapat lihat [bahwa/yang] hubungan yang pertama linier ( Sig= . 268), tetapi hubungan yang
kedua adalah nonlinear ( Sig= . 003).

Jika test ini mengeraskan hasil aneh, kemudian sederhananya melaksanakan suatu OLS regresi linier
antar[a] masing-masing IV->DV memasangkan. Jika sig nilai kurang dari 0.05, kemudian hubungan dapat
dipertimbangkan " cukup" linier. [Selagi/Sedang] pendekatan ini adalah sedikit banyak(nya) lebih sedikit
kaku, [itu] mempunyai manfaat aktip setiap kali! Kamu dapat juga lakukan suatu curve-linear kemunduran
(" membengkok penilaian") untuk lihat jika hubungan jadilah lebih linier dibanding tidak linier.


Homoscedasticas



Homoscedasticas adalah suatu kata menjijikkan yang berarti [bahwa/yang] [yang] bersifat sisa variabel (
kesalahan) memperlihatkan perbedaan konsisten ke seberang tingkat yang berbeda [menyangkut]
variabel [itu]. Ada yang baik pertimbangan untuk kerinduan ini. Karena lebih [] informasi, lihat rambut Et
al. 2010 bab 2.:) Suatu jalan/cara sederhana untuk menentukan jika suatu hubungan adalah
homoscedastic akan lakukan suatu sederhana menyebar alur cerita dengan variabel pada [atas] x-axis
dan [yang] bersifat sisa variabel pada [atas] [itu] y-axis. Untuk lihat selangkah oleh langkah memandu
pada [atas] bagaimana cara lakukan ini, mengamati pengajaran tambahan video. Jika alur cerita sampai
pada suatu pola teladan konsisten- seperti di figur di bawah, kemudian kita adalah yang baik- kita
mempunyai homoscedasticas! Jika ada tak satu pola teladan konsisten pun , kemudian hubungan
mempertimbangkan heteroskedastic. Ini dapat ditetapkan;perbaiki dengan menjelmakan data atau
[oleh/dengan] pemisahan data [oleh/dengan] sub-sub kelompok ( seperti dua kelompok untuk jenis
kelamin). Kamu dapat membaca lebih banyak tentang perubahan bentuk di (dalam) rambut Et al. 2010
ch. 4.



Sekolah pikiran pada [atas] homoscedasticas masih ke luar. Beberapa menyatakan bahwa bukti
heteroskedasticas bukanlah suatu masalah ( dan benar-benar diharapkan dan diinginkan di (dalam)
model dilembutkan), dan demikian kita seharusnya tidak cemas akan pengujian untuk homoscedasticas.
Aku tidak pernah melakukan test ini kecuali jika [yang] diminta ke oleh suatu penulis resensi buku.

Multicollinearas

Youtube.Pngvideo PENGAJARAN TAMBAHAN: Mendeteksi Mulitcollinearas
Multicollinearas tidaklah diinginkan. Ini berarti [bahwa/yang] perbedaan [yang] variabel [yang] mandiri
[kita/kami] menjelaskan di (dalam) variabel [yang] dependent [kita/kami] adalah sedang tidak overlap
satu sama lain dan begitu masing-masing menjelaskan perbedaan unik di (dalam) variabel yang
dependent [itu]. Jalan/Cara untuk memeriksa ini akan mengkalkulasi suatu Variabel Inflasi Faktor ( VIF)
untuk/karena masing-masing variabel [yang] mandiri setelah lari/menjalankan suatu multivariate
kemunduran. Ketentuan-Ketentuan ibu jari untuk VIF sebagai berikut:

VIF< 3: tak satu masalah pun
VIF> 3; masalah potensial
VIF> 5; kemungkinan besar masalah
VIF> 10; dengan pasti masalah
Karena [yang] tertentu pada [atas] bagaimana cara mengkalkulasi VIF di (dalam) SPSS, berhati-hati
dengan pengajaran tambahan video langkah. metoda Yang paling mudah untuk memperbaiki
multicollinearas isu akan menetes jatuh salah satu variabel meragukan. Ini tidak akan menyakiti R-
Square mu banyak sebab variabel itu tidak menambahkan banyak penjelasan perbedaan [yang] unik
bagaimanapun.



Data screening, atau juga dikenal dengan data cleaning (membersihkan data)
merupakan salah satu teknik persiapan data untuk analisa data kuantitatif. Tujuan
utama dari data screening ini adalah khususnya menghilangkan data-data yang
hilang (missing value) ataupun data-data yang dianggap tidak normal. Contohnya,
kita sering menemui data-data dari kuesioner tidak diisi oleh responden pada
beberapa item, mungkin dikarenakan terlewat, terlupakan, atau mungkin saja
responden tidak berkenan mengisinya. Juga, banyak ditemui data-data yang diisikan
oleh responden tidak sesuai dengan apa yang diinstruksikan.



Misal, dalam skala sikap 1 sampai 5, responden mengisi 0, atau 6. Sehingga, nilai 0
atau 6 ini menjadi data yang dianggap diluar kewajaran untuk dianalisa secara
kuantitaitf. Contoh dalam aplikasi kuesioner dapat disimak sebagai berikut:
Ada seorang responden (responden 1) yang diminta menilai 5 jenis nasi goreng
dengan skala 1-5, dengan skala 1: sangat tidak enak, dan skala 5 menunjukan rasa
yang sempurna (sangat enak). Data yang diperoleh:
Responden 1:
Nasi goreng A -3, Nasi goreng B -4, Nasi goreng C-0, Nasi goreng D 0, Nasi goreng
E -5.
Dari data responden diatas, terlihat nasi goreng C mendapatkan score 0 diluar dari
skala 1-5. Hal ini bisa jadi responden tidak ingin berkomentar, atau tidak (ingin)
memakan nasi goreng tersebut. Juga pada kasus nasi goreng D yang tidak memiliki
score (0).
Sayangnya, banyak peneliti pemula tidak sadar tentang data screening pada awal
persiapan analisa data kuantitatif ini. Banyak juga yang kemudian memutuskan untuk
menghapus atau mengeluarkan (exclude) data-data yang hilang atau diluar
kenormalan tersebut. Padahal, mempersiapkan data melalui prosedur data screening
ini dapat banyak membantu dalam menormalisasi distribusi data.
Berikut ini adalah beberapa hal yang perlu dilakukan dalam data screening:
Langkah 1. Merespon missing value
Missing value adalah nilai atau data yang terlewat (hilang) dari sebuah isian
kuesioner, test atau instrumen lainnya. Missing value selalu berarti hilangnya data
secara keseluruhan. Atau dengan kata lain, ada bagian yang hilang dari keseluruhan
data responden.
Berikut adalah contoh dari data nilai bahasa Inggris siswa dari tiga sekolah (N=65)
Gambar 1.









Sejarah Data Membersihkan

Dengan praktek [yang] Klinis Baik Petunjuk yang sedang diadopsi dan diatur di (dalam) semakin banyak
negara-negara, beberapa pergeseran penting di (dalam) epidemiological riset praktek klinis dapat
diharapkan. Salah satu [dari] pengembangan yang diharapkan adalah suatu penekanan ditingkatkan
pada [atas] standardisasi, dokumentasi, dan pelaporan penanganan data dan data mutu. Tentu saja, di
(dalam) tradisi ilmiah, [yang] terutama di (dalam) academia, kebenaran studi telah dibahas sebagian
besar mengenai belajar disain, pemenuhan protokol umum, dan integritas dan pengalaman dari
penyelidik. Penanganan data, walaupun mempunyai;nikmati suatu potensi sama untuk mempengaruhi
mutu hasil studi, telah menerima menurut perbandingan lebih sedikit perhatian. Sebagai hasilnya,
sungguhpun pentingnya penanganan data prosedur sedang digaris bawahi di (dalam) petunjuk
manajemen data dan praktek klinis baik [ 13], ada gap penting di (dalam) pengetahuan tentang
penanganan data metodologi optimal dan standard mutu data. Masyarakat untuk Data [yang] Klinis
Manajemen, di (dalam) petunjuk mereka untuk baiknya praktek manajemen data klinis, negara: petunjuk
dan Peraturan tidak menunjuk mutu data bisa diterima minimum mengukur untuk data
percobaan/pengadilan klinis. Sesungguhnya, ada terbatas riset diterbitkan menyelidiki karakteristik atau
distribusi [dari;ttg] kesalahan data percobaan/pengadilan klinis. Bahkan lebih sedikit informasi diterbitkan
ada pada [atas] metoda mutu data penjumlahan [ 4].

data Pembersihan adalah simbolis untuk status isu mutu data [yang] yang lebih rendah yang historis dan
telah lama dipandang sebagai suatu orang yang dicurigai aktivitas, lipat pada [atas] manipulasi data.
Armitage dan Biji [ 5] hampir minta maaf untuk memasukkan/menyisipkan suatu bab pendek/singkat pada
[atas] data yang mengedit di (dalam) buku teks standard mereka pada [atas] statistik di (dalam) riset
medis. Sekarang ini, kapan saja mendiskusikan data [yang] membersihkan, [itu] masih merasa
untuk;menjadi sesuai untuk start dengan mengatakan pembersihan data itu tidak pernah dapat
TERPOTONG. ALINEA TERLALU BESAR.

Tinju 1. Terminologi Berhubungan dengan Data Membersihkan

Data [yang] membersihkan: Proses pendeteksian, diagnose, dan data salah/cacat editing.

Data [yang] mengedit: Ubah nilai data menunjukkan untuk;menjadi salah.

data Arus: Jalan lintasan [dari;ttg] informasi direkam melalui/sampai pengangkut informasi berurutan.

Inlier: data Nilai tergolong cakupan yang diharapkan.

Outlier: data Nilai yang jatuh di luar cakupan diharapkan itu .

Penilaian sempurna: Penilaian [dari;ttg] parameter statistik, menggunakan metoda yang adalah lebih
sedikit [yang] sensitip tujuan outliers dibanding metoda lebih konvensional.

proses jaminan mutu [yang] Yang lengkap di (dalam) pelajaran penelitian meliputi pencegahan
kesalahan, data [yang] monitoring, data [yang] membersihkan, dan dokumentasi. Ada diusulkan model
yang menguraikan total jaminan mutu sebagai suatu proses terintegrasi [ 19]. Bagaimanapun, kita
berkonsentrasi di sini pada [atas] data [yang] membersihkan dan, sebagai tujuan detik/second
[menyangkut] catatan/kertas, [yang] secara terpisah menguraikan suatu kerangka untuk proses ini. Fokus
[kita/kami] terutama semata pada [atas] riset medis dan pada [atas] keterkaitan praktis untuk penyelidik
yang medis [itu].
Data [yang] membersihkan berhadapan dengan permasalahan data sekali ketika mereka sudah terjadi.
Error-Prevention strategi dapat mengurangi banyak permasalahan tetapi tidak bisa menghapuskan
[mereka/nya]. Kami hadirkan data yang membersihkan sebagai proses three-stage, menyertakan siklus
penyaringan diulangi, diagnose, dan editing [dari;ttg] kelainan data dicurigai. Gambar 1 pertunjukan tiga
langkah-langkah ini , yang (mana) dapat diaktipkan pada tiga langkah-langkah [yang] berbeda suatu
studi. Banyak kesalahan data dideteksi kebetulan selama aktivitas studi selain dari data [yang]
membersihkan. Bagaimanapun, [itu] jadilah lebih efisien untuk mendeteksi kesalahan dengan dengan
aktip mencari-cari [mereka/nya] di (dalam) suatu jalan/cara direncanakan. Adalah tidaklah selalu dengan
seketika bersih;kan apakah suatu titik data salah. Banyak kali, apa [yang] dideteksi adalah suatu data
dicurigai menunjuk atau mempola kebutuhan itu pengujian saksama. [Yang] dengan cara yang sama,
yang hilang nilai-nilai memerlukan pengujian lebih lanjut . yang hilang Nilai-Nilai mungkin (adalah) dalam
kaitan dengan gangguan [menyangkut] data mengalir atau tidak ketersediaan dari informasi target.
Karenanya, aturan sudah dikenal dalam hubungan dengan kesalahan dan yang hilang benar dan nilai-
nilai ekstrim menjadi bagian dari yang baik praktek. Seseorang dapat menyaring untuk orang yang
dicurigai menonjolkan di (dalam) daftar pertanyaan survei, database komputer, atau analisa datasets. Di
(dalam) studi kecil, dengan penyelidik [yang] lekat melibatkan sama sekali langkah-langkah, mungkin ada
sedikit/kecil atau tidak (ada) pembedaan antar[a] suatu database dan suatu analisa dataset.
Suatu Kerangka Yang Data-Cleaning
Yang diagnostik dan tahap perawatan data [yang] membersihkan memerlukan pengertian yang
mendalam ke dalam sumber dan jenis kesalahan sama sekali langkah-langkah [menyangkut] studi,
selama seperti halnya setelah pengukuran. Konsep arus data adalah rumit dalam semangat ini. Setelah
pengukuran, data riset mengalami langkah-langkah [yang] diulangi yang sedang dimasukkan ke
pengangkut informasi, menyadap, mentransfer ke pengangkut lain, menerbitkan, memilih, menjelma,
meringkas, dan memperkenalkan. Adalah penting untuk menyadari bahwa kesalahan dapat terjadi pada
tahap yang manapun [menyangkut] data mengalir, mencakup selama data [yang] membersihkan [dirinya]
sendiri. Tabel 1 menggambarkan sebagian dari sumber dan jenis kesalahan yang mungkin di (dalam)
suatu daftar pertanyaan survei besar. Kebanyakan permasalahan adalah dalam kaitan dengan kesalahan
manusia.

Eluarkan untuk;menjadi Pertimbangkan selama Pengumpulan data, Manajemen, dan Analisa suatu
Daftar pertanyaan Belajar
Ketidaktepatan [dari;ttg] titik data dan pengukuran tunggal mungkin (adalah) bisa diterima, dan
berhubungan dengan yang tidak bisa dipisahkan kesalahan [yang] teknis [menyangkut] instrumen
pengukuran. Karenanya, pembersihan data perlu memusatkan pada [atas] kesalahan yang adalah di
luar variasi [yang] teknis kecil dan itu [mendasari/membuat] suatu pergeseran utama di dalam atau di luar
distribusi populasi. Pada gilirannya, data membersihkan harus didasarkan pada pengetahuan [dari;ttg]
kesalahan teknis dan mengharapkan cakupan [dari;ttg] nilai-nilai normal.

Beberapa kesalahan [berhak/layak] prioritas, tetapi yang yang (mana) adalah paling utama adalah
[yang] sangat study-specific. Di (dalam) epidemiological studi [yang] paling klinis, kesalahan yang perlu
untuk dibersihkan, biar bagaimanapun, meliputi yang hilang jenis kelamin, jenis kelamin misspecification,
pengujian atau tanggal/date kelahiran menanggali kesalahan, duplikasi atau menggabungkan arsip, dan
secara biologic mustahil menghasilkan. Sebagai contoh, di (dalam) ilmu gizi belajar, menanggali
kesalahan mendorong kearah kesalahan [umur/zaman], yang (mana) pada gilirannya mendorong kearah
kesalahan di (dalam) weight-for-age membuat angka dan, lebih lanjut, ke misclassification pokok
[sebagai/ketika] di bawah- atau [yang] kelebihan berat.

Kesalahan jenis kelamin dan tanggal/date terutama sekali penting sebab mereka mencemari variabel
diperoleh. Prioritisasi adalah penting jika studi adalah di bawah waktu memaksa atau jika sumber daya
untuk pembersihan data terbatas.
Penyaringan Tahap

Ketika penyaringan data, adalah menyenangkan untuk menciri empat jenis dasar keanehan: kelebihan
atau ketiadaan data; outliers, mencakup inconsistencies; pola teladan asing/aneh di (dalam) (
sambungan) distribusi; dan analisa tak diduga menghasilkan dan jenis lain abstrak dan kesimpulan (
Tabel 1). Penyaringan metoda tidak perlu hanya statistik. Banyak outliers dideteksi oleh nonconformas
yang dirasa dengan harapan [utama/lebih dulu], berdasar pada pengalaman penyelidik, studi-panduan,
bukti di (dalam) literatur, atau akal sehat. Pendeteksian boleh genap terjadi selama tinjauan ulang artikel
atau setelah penerbitan.



Apa yang dapat dilakukan untuk membuat menyaring sasaran dan sistematis? Untuk mengijinkan
peneliti untuk memahami data lebih baik, haruslah diuji dengan perkakas deskriptif sederhana. paket
Statistik standard atau bahkan spreadsheet membuat ini [bagi/kepada] lakukan [ 20,21]. Karena
mengidentifikasi orang yang dicurigai data, seseorang dapat predefine harapan pertama tentang cakupan
normal, bentuk distribusi, dan kekuatan hubungan [ 22]. Ke dua, aplikasi [dari;ttg] ukuran-ukuran ini dapat
direncanakan terlebih dahulu, untuk;menjadi dilaksanakan selama atau tidak lama sesudah pengumpulan
data, selama masukan data, dan secara teratur sesudah itu. [yang] Ketiga, perbandingan [menyangkut]
data dengan penyaringan ukuran-ukuran dapat sebagian diotomatkan dan mendorong kearah lemah lesu
untuk data ragu-ragu, pola teladan, atau hasil.

Suatu masalah khusus adalah sebagai salah inliers, yaitu., poin-poin data yang dihasilkan oleh
kesalahan tetapi tergolong cakupan yang diharapkan [itu]. salah Inliers akan sering lepas pendeteksian.
Kadang-Kadang, inliers ditemukan untuk;menjadi mencurigai jika dipandang dalam hubungan dengan
variabel lain, penggunaan menyebar alur cerita, analisis regresi, atau cek konsistensi [ 23]. Seseorang
dapat juga mengidentifikasi beberapa [oleh/dengan] pengujian sejarah dari tiap data menunjuk atau oleh
pengukuran kembali, tetapi pengujian seperti (itu) jarang mungkin. Sebagai ganti(nya), seseorang dapat
menguji dan/atau mengukur kembali suatu contoh TERPOTONG. ALINEA TERLALU BESAR [


Tinju 2. Penyaringan Metoda

Pemeriksaan daftar pertanyaan [yang] menggunakan algoritma ditetapkan;perbaiki.
data yang disahihkan Masukan dan menggandakan masukan data.
Merumput tabel data setelah penyortiran.
Hasil print komputer variabel tidak menghantar cakupan tidak memeriksa dan [tentang] arsip menghantar
cek konsistensi.
Explorasi distribusi grafis: alur cerita kotak, histogram, dan menyebar alur cerita.
Alur cerita [dari;ttg] pengukuran diulangi pada [atas] individu yang sama, e.g., kurva pertumbuhan.
Distribusi frekuensi dan cross-tabulations.
ringkasan Statistik.
statistik Outlier pendeteksian.

Tahap Diagnostik

Di (dalam) tahap ini, tujuan akan memperjelas alam[i] [yang] benar [menyangkut] worrisome data
menunjuk, mempola, dan statistik. Diagnosa mungkin untuk masing-masing titik data sebagai berikut:
salah, benar normal benar ( yaitu, harapan yang [utama/lebih dulu] salah), atau idiopathic ( yaitu., tidak
(ada) penjelasan menemukan, tetapi masih mencurigai). Beberapa poin-poin data dengan jelas secara
logika atau secara biologic mustahil. Karenanya, orang boleh predefine [yang] tidak hanya menyaring
penggalan [sebagai/ketika] diuraikan di atas ( penggalan lembut), tetapi juga penggalan untuk hasil
diagnosa kesalahan segera ( penggalan [sulit/keras]) [ 10]. Gambar 2 menggambarkan metoda ini.
Kadang-Kadang, mencurigai kesalahan akan jatuh di tengahnya penggalan [sulit/keras] dan yang lembut,
dan hasil diagnosa akan [jadi] lebih sedikit secara langsung. Di (dalam) kasus ini, adalah diperlukan
untuk [menerapkan/berlaku] suatu kombinasi [dari;ttg] prosedur diagnostik.

Area di dalam Cakupan suatu Variabel Berlanjut Digambarkan oleh Penggalan Lembut dan [Sulit/Keras]
untuk Kesalahan Menyaring dan Hasil diagnosa, dengan Merekomendasikan Langkah-Langkah
Diagnostik untuk Data Poin-Poin Jatuh pada setiap Area

[satu/ orang] Prosedur akan pergi ke langkah-langkah [yang] sebelumnya [menyangkut] arus data untuk
lihat apakah suatu nilai secara konsisten yang sama. Ini memerlukan akses ke well-archived dan
mendokumentasikan data dengan pertimbangan untuk perubahan apapun buat pada tahap yang
manapun. Suatu prosedur detik/second akan men/cari informasi yang bisa mengkonfirmasikan status
ekstrim benar dari suatu titik data terpencil. Sebagai contoh, suatu score sangat rendah untuk weight-for-
age ( e.g., - 6 Z-Scores) boleh jadi dalam kaitan dengan kesalahan di (dalam) pengukuran usia atau
menimbang, atau pokok materi mungkin (adalah) sangat malnourished, dalam hal mana variabel perihal
gizi lain perlu juga sudah nilai-nilai sangat rendah. individu laporan Pasien dengan informasi
ter/dikumpulkan pada [atas] pengukuran terkait adalah sangat menolong untuk tujuan ini. Prosedur jenis
ini memerlukan pengertian yang mendalam ke dalam lekat variabel di (dalam) suatu biologi atau
[perasaan/pengertian] statistik. Lagi, pengertian yang mendalam seperti (itu) [yang] tersedia [sebelum/di
depan] studi dan dapat digunakan untuk merencanakan dan data program [yang] membersihkan.
Sepertiga prosedur akan mengumpulkan informasi tambahan, e.g., mempertanyakan
interviewer/measurer sekitar apa yang bisa sudah terjadi dan, jika mungkin, pengulangan [adalah]
pengukuran. Prosedur seperti (itu) hanya dapat terjadi jika data [yang] membersihkan start segera
setelah pengumpulan data, dan kadang-kadang remeasuring hanya berharga sangat tidak lama sesudah
pengukuran awal. Di (dalam) studi membujur, variabel adalah sering di/terukur pada berbagai zaman
spesifik atau kelanjutan waktu. Dengan disain seperti (itu) , kemungkinan remeasuring atau memperoleh
pengukuran untuk yang hilang data akan sering membatasi pada interval bisa diijinkan sudah dikenal di
sekitar target waktu. Interval seperti (itu) dapat menetapkan lebih luas TERPOTONG. ALINEA TERLALU
BESAR.

Perawatan Tahap

Setelah identifikasi kesalahan, yang hilang nilai-nilai, dan benar ( normal atau ekstrim) nilai-nilai, peneliti
harus memutuskan apa yang akan dilakukan dengan pengamatan meragukan. Pilihan [di/terbatas] pada
mengoreksi, menghapus, atau meninggalkan tanpa perubahan. Ada beberapa aturan umum di mana
pilihan untuk memilih. Mustahil nilai-nilai tidak pernah meninggalkan tanpa perubahan, tetapi harus
dikoreksi jika suatu nilai benar dapat ditemukan, jika tidak mereka harus dihapus. Karena biologi variabel
berlanjut, beberapa within-subject variasi dan variasi pengukuran kecil adalah kehadiran tiap-tiap
pengukuran. Jika suatu pengukuran kembali dilaksanakan dengan cepat setelah awal [yang] satu dan
dua nilai-nilai adalah dekat cukup untuk;menjadi diterangkan oleh variasi [yang] kecil ini sendiri, ketelitian
mungkin (adalah) ditingkatkan dengan pengambilan rata-rata baik sebagai nilai yang akhir.

Apa yang sebaiknya dilaksanakan dengan nilai-nilai [yang] ekstrim benar dan dengan nilai-nilai yang
masih mencurigai setelah tahap yang diagnostik? Penyelidik boleh ingin lebih lanjut menguji pengaruh
poin-poin data seperti (itu) , [yang] secara individu dan sebagai kelompok, pada [atas] hasil analisa
[sebelum/di depan] memutuskan ya atau tidaknya untuk me/tinggalkan data tanpa perubahan. Metode
statistik ada untuk membantu mengevaluasi pengaruh data seperti (itu) menunjuk pada [atas] parameter
kemunduran. Beberapa pengarang sudah merekomendasikan nilai-nilai [yang] ekstrim benar itu perlu
selalu tinggal di dalam analisa [ 25]. Dalam praktek, banyak perkecualian dibuat untuk aturan itu .
Penyelidik tidak boleh ingin mempertimbangkan efek [dari;ttg] nilai-nilai ekstrim benar jika mereka
diakibatkan oleh suatu proses ucapan tambahan tidak diantisipasi. Ini menjadi suatu suatu posteriori
pengeluaran ukuran dan poin-poin data harus dilaporkan [ketika;seperti] yang dikeluarkan dari analisa.
[Yang] sebagai alternatif, mungkin saja [bahwa/yang] ukuran-ukuran pengeluaran yang protocol-
prescribed dengan tak hati-hati tidak diterapkan dalam beberapa hal [ 26].

Data membersihkan sering memimpin ke arah pengertian yang mendalam ke dalam alam[i]
TERPOTONG. ALINEA TERLALU BESAR.


Data Membersihkan sebagai Studi- Proses Spesifik

Kepekaan dari memilih metoda analisa statistik ke terpencil dan yang hilang nilai-nilai dapat mempunyai
konsekwensi dalam kaitan dengan jumlah usaha yang penyelidik ingin menginvestasikan untuk
mendeteksi dan mengukur kembali. [Itu] juga mempengaruhi keputusan tentang apa yang akan dilakukan
dengan sisa[nya] outliers ( me/tinggalkan tanpa perubahan, menghapuskan, atau menimbang selama
analisa) dan dengan yang hilang data ( tidak menyalahkan atau) [ 2731]. sasaran hasil Codetermine
[adalah] ketepatan [yang] yang diperlukan [menyangkut] ukuran hasil, laju galat yang bisa diterima, dan,
oleh karena itu, investasi yang perlu di (dalam) data [yang] membersihkan.

Studi membujur mengharuskan mengecek konsistensi data yang sementara. Alur cerita [dari;ttg] data
individu serial seperti data pertumbuhan atau mengulangi pengukuran [dari;ttg] variabel pasti/mutlak
sering menunjukkan suatu pola teladan dapat dikenal dari yang (mana) suatu titik data bertentangan
[yang] dengan jelas menonjol. Di (dalam) percobaan/pengadilan klinis, mungkin ada berhubungan
dengan sekitar penyimpangan penyelidik sebagai hasil pemeriksaan data yang dekat yang terjadi selama
pembersihan, sedemikian sehingga pengujian oleh suatu tenaga ahli mandiri mungkin (adalah)
diperlukan.

Di (dalam) studi kecil, tunggal outlier akan mempunyai suatu pengubahan lebih besar mempengaruhi
pada [atas] hasil [itu]. Beberapa penyaringan metoda seperti pengujian tabel data akan [jadi] [yang] lebih
efektif, sedangkan (orang) yang lain, seperti statistik outlier pendeteksian, boleh menjadi kurang sah
dengan contoh lebih kecil. Volume data akan [jadi] lebih kecil; karenanya, tahap yang diagnostik dapat
lebih murah dan keseluruhan prosedur lebih lengkap. Studi lebih kecil [yang] pada umumnya melibatkan
lebih sedikit orang-orang, dan langkah-langkah di (dalam) arus data mungkin (adalah) lebih sedikit dan
[yang] lebih secara langsung, membiarkan lebih sedikit peluang untuk kesalahan.

Di (dalam) intervensi belajar dengan evaluasi sementara kemanjuran atau keselamatan, adalah
[menjadi/dari] arti penting tertentu untuk mempunyai data dapat dipercaya yang tersedia [sebelum/di
depan] evaluasi berlangsung TERPOTONG. ALINEA TERLALU BESAR.


dan Dokumentasi Pelaporan

Yang baik praktek petunjuk untuk manajemen data memerlukan ketransparanan dan dokumentasi
sesuai dari semua prosedur [ 14,30]. Data [yang] membersihkan, sebagai suatu aspek/pengarah
jaminan mutu [yang] penting dan suatu faktor penentu kebenaran studi, harus tidak suatu perkecualian.
Kita menyarankan termasuk [adalah] suatu data-cleaning rencana di (dalam) protokol studi. Rencana ini
perlu meliputi kebutuhan personil dan anggaran, harapan [utama/lebih dulu] dulu menyaring orang yang
dicurigai data, menyaring perkakas, prosedur diagnostik yang digunakan untuk membedakan/melihat
kesalahan dari nilai-nilai benar, dan kaidah pengambilan keputusan yang akan [jadi] diterapkan di
(dalam) [itu] editing tahap. Dokumentasi sesuai perlu ada untuk masing-masing data menunjuk,
mencakup [yang] lemah lesu diferensial untuk jenis corak dicurigai, informasi diagnostik, dan informasi
pada [atas] jenis editing, biji, dan personil melibatkan.

Di (dalam) studi besar, data-monitoring dan panitia keselamatan perlu menerima laporan terperinci pada
[atas] data [yang] membersihkan, dan umpan balik mengenai cara pada [atas] studi mendisain dan
melakukan harus disampaikan untuk suatu panitia etika dan kemudi studi. Petunjuk pada [atas]
pelaporan kesalahan [yang] statistik dan efek mereka pada [atas] hasil di (dalam) survei besar telah
diterbitkan [ 31]. Kita merekomendasikan laporan [yang] ilmiah medis itu meliputi data-cleaning metoda.
Metoda ini perlu meliputi kesalahan mengetik dan menilai, sedikitnya untuk variabel hasil yang utama,
dengan tingkat tarip koreksi dan penghapusan yang dihubungkan, pertimbangan untuk
tuduhan/penuduhan, dan perbedaan di (dalam) hasil dengan dan tanpa sisa[nya] outliers [ 25].











Screening dan Membersihkan File Data
Perlu diperhatikan bahwa seringkali terjadi kesalahan dalam memasukkan data
(dari respon responden dari koeisoner) ke SPSS file data. Pada bab ini akan
dibahas tiga hal: mengecek eror data, menemukan eror tersebut dalam data file,
dan membenarkan eror dalam file data.
Mengecek Eror Data
Langkah pertama mengecek eror data adalah dengan mencari skor yang
diluar skor yang ditentukan masing-masing variabel (seperti variabel jenis
kelamin, skornya seharusnya hanyalah 1 dan 2. Tidak ada skor selainnya).
Langkah lainnya adalah dengan menjalankan serangkaian analisis statistic
deskriptif (seperti frekuensi). Disini akan dipaparkan pengecekan eror data
baik untuk variabel kategorikal (atau nominal) dan variabel besambung
(continuous variable/ ordinal dan rasio).
Prosedur pengecekan eror untuk variabel kategorikal:
Dari menu di layar bagian atas, klik Analyze kemudian pilih
Descriptive Statistics dan kemudian Frequencies
Dalam dialogue box Frequencies, pilihlah variabel yang anda
inginkan (contoh: sex untuk jenis kelamin)
Klik panah untuk memindahkan variabel tersebut ke Variable
13
Box dan
Klik Statistics dan pilihlah Minimum dan Maximum
klik Continue dan kemudian OK.
Statistics
sex
439
0
1
2
Valid
Missing
N
Minimum
Maximum
sex
185 42.1 42.1 42.1
254 57.9 57.9 100.0
439 100.0 100.0
MALES
FEMALES
Total
Valid
Frequency Percent Valid Percent
Cumulative
Percent
Cek minimum dan maximum skor, apakah ia sesuai dengan skor
dalam variabel tersebut. Apabila tidak, disana terdapat kesalahan
data
Cek jumlah data yang valid (terisi dengan benat) dan data kosong
(missing value). Apabila terdapat banyak data kosong, silahkan
cek kembali form koeisoner anda.
Prosedur pengecekan eror untuk variabel bersambung:
Dari menu di layar bagian atas, klik Analyze kemudian pilih
Descriptive Statistics dan kemudian Descriptive
Dalam dialogue box, pilihlah variabel yang anda inginkan (contoh:
Age untuk umur) dan klik panah untuk memindahkannya ke
variable box
Klik Options. Anda bisa memilih beberapa analisis statistik yang
ada inginkan, seperti mean (rata-rata), median (nilai tengah),
standard deviation (standar deviasi), minimim-maximum (skor
minimum-maximum).
Klik Continue dan kemudian OK
Cek skor minimum dan maximum. Apakah ia make sense (bisa
diterima secara rasional)
Cek juga Mean (nilai rata-rata). Apakah ia juga make sense
Menemukan eror dalam file data
14
Pada prinsipnya, langkah ini ditujukan untuk menemukan eror data dala
file data. Artinya data yang tidak sesuai dengan skor yang telah ditentukan
pada suatu variabel. Seperti skor 3 pada variabel sex (jenis kelamin) yang
seharusnya hanya 1 dan 2.
Anda bisa mencarinya langsung dalam data view dan menggantinya
dengan data yang benar berdasarkan isian koeisoner dari responden.
Anda juga bisa menemukannya dengan menjalankan analisis statistik
tertentu.
Dari menu di layar bagian atas, klik Analyze kemudian pilih
Descriptive Statistics kemudian Explore
Pada Display, klik Statistics
Pilihlah variabel yang anda inginkan (contoh: sex) dan pindahkan
ke dependent list dengan mengklik panah
Pada Label Cases, pilihlah ID. Ini dimaksudkan untuk
menemukan data eror tersebut
Pada Statistic pilih outliers. Klik Continue
Pada Option, pilih Exclude cases pairwise kemudian
Continue dan OK
Perhatikan table berlabel Extreme Values yang menunjukkan
skor tertinggi dan terendah sekaligus ID nya. Artinya table
tersebut telah menunjukkan eror data
Membenarkan eror data pada File data
Setelah anda menemukan eror data dalam file data, anda perlu untuk
mengecek kebenarannya pada isian koeisoner dari responden.
Setelah itu, anda bisa langsung menggantinya di data view.