Anda di halaman 1dari 1

Pengertian Data Formatting, Cleaning, dan Sampling

Formatting: Data yang Anda pilih mungkin tidak dalam format yang cocok untuk Anda gunakan. Data
mungkin dalam database relasional dan Anda ingin itu dalam file flat, atau data mungkin dalam format
file berpemilik dan Anda ingin itu dalam database relasional atau file teks.

Cleaning: Membersihkan data adalah penghapusan atau perbaikan data yang hilang. Mungkin ada
contoh data yang tidak lengkap dan tidak membawa data yang Anda yakin perlu untuk mengatasi
masalah. Contoh-contoh ini mungkin perlu dihapus. Selain itu, mungkin ada informasi sensitif dalam
beberapa atribut dan atribut ini mungkin perlu dianonimkan atau dihapus dari data sepenuhnya.

Sampling: Mungkin ada lebih banyak data yang dipilih yang tersedia daripada yang Anda butuhkan.
Lebih banyak data dapat menghasilkan waktu berjalan lebih lama untuk algoritma dan kebutuhan
komputasi dan memori yang lebih besar. Anda dapat mengambil sampel representatif yang lebih kecil
dari data yang dipilih yang mungkin jauh lebih cepat untuk mengeksplorasi dan membuat prototipe
solusi sebelum mempertimbangkan seluruh dataset.

Anda mungkin juga menyukai