Anda di halaman 1dari 3

DATA PREPROCESSING

Data preprocessing merupakan komponen dalam persiapan data, yang mendeskripsikan


semua jenis pemrosesan yang dilakukan pada data mentah agar siap dilakukan pemrosesan
data lanjutan, seperti visualisasi data dan pembentukan model. Data preprocessing
merupakan komponen dalam persiapan data, yang mendeskripsikan semua jenis pemrosesan
yang dilakukan pada data mentah agar siap dilakukan pemrosesan data lanjutan, seperti
visualisasi data dan pembentukan model. Machine learning dan kecerdasan buatan bekerja
sangat optimal ketika data yang disajikan relevan dengan algoritma yang sudah dirancang.
Data preprocessing membantu restrukturisasi data mentah menjadi bentuk data yang sesuai
dengan algoritma. Dengan begitu, akan mengurangi daya pemrosesan dan waktu yang
diperlukan untuk melatih machine learning dan kecerdasan buatan.

Langkah-langkah pada data preprocessing, yaitu:

1. Data Cleaning
Data cleaning atau pembersihan data terutama dilakukan sebagai bagian dari data
preprocessing untuk membersihkan data dengan mengisi nilai yang hilang,
menghaluskan data yang noise, menyelesaikan data yang tidak konsisten, dan
menghapus outlier.

Beberapa masalah yang biasa terjadi pada dataset adalah sebagai berikut:

• Missing value, yaitu ketika ada nilai yang hilang pada dataset. Misalnya, dalam satu
row table data, ada satu sel yang tidak memiliki nilai. Maka untuk mengatasinya
yakni kita abaikan row yang tidak lengkap jika dataset dirasa sangat banyak. Namun,
jika tidak bisa mengabaikannya, dapat di isi secara manual dengan mengacu ke
berbagai referensi.
• Noisy data, yaitu ketika data berisi nilai-nilai yang salah atau anomali. Kondisi itu
disebut juga outlier. Untuk mengatasi noisy data, ada beberapa teknik yang dapat
dilakukan, diantaranya:
• Binning, yaitu metode dengan membagi data ke beberapa partisi, kemudian
partisi-partisi tersebut ditangani secara tersendiri. Kemudian, dari semua partisi
data itu dicari nilai mean, median, atau nilai batas yang sudah ditentukan.
• Regression, yaitu suatu metode dengan memprediksi nilai pada data
menggunakan persamaan regresi linier. Metode ini dapat digunakan jika hanya
ada satu atribut independen.
• Clustering, yaitu suatu metode dengan membuat grup atau cluster dari data
yang memiliki nilai serupa. Nilai-nilai yang tidak masuk ke cluster dapat dianggap
sebagai noisy data dan dapat dihapus.
• Inconsistent data, yaitu kondisi ketika nilai-nilai yang ada pada data tidak konsisten.
Sama seperti mengatasi noisy data, metode binning, regression, dan clustering dapat
diterapkan untuk mengatasi inconsistent data.
2. Integrasi Data
Integrasi data adalah salah satu langkah data preprocessing yang digunakan untuk
menggabungkan data yang ada di berbagai sumber menjadi satu penyimpanan data yang
lebih besar seperti gudang data atau data warehouse.
beberapa masalah saat mengadopsi integrasi data sebagai salah satu langkah data
preprocessing:
• Integrasi skema dan pencocokan objek: Data dapat hadir dalam format yang
berbeda, dan atribut yang mungkin menyebabkan kesulitan dalan integrasi data.
• Menghapus atribut yang berlebihan atau redundan dari semua sumber data.
• Deteksi dan resolusi konflik nilai data.

3. Transformasi Data
Langkah ini dilakukan agar data yang sudah terkumpul dari berbagai sumber tersebut
menjadi seragam. Dalam data transformation, kita bisa mengubah struktur data, format
data, atau nilai data sedemikian rupa sehingga menghasilkan dataset yang sesuai untuk
proses mining atau sesuai dengan algoritma yang sudah dirancang.
Langkah yang dapat dilakukan saat data transformation adalah sebagai berikut:
• Agregation, yaitu langkah untuk menggabungkan semua data dalam format yang
seragam.
• Normalization, yaitu langkah untuk mengubah data ke dalam skala yang teratur,
sehingga dapat membandingkannya dengan lebih akurat.
• Feature selection, yaitu langkah untuk menentukan variabel apa saja yang paling
penting untuk dianalisis. Variabel ini yang nantinya digunakan untuk melatih model
machine learning atau kecerdasan buatan.
• Discreditization, yaitu langkah untuk mengumpulkan data ke dalam interval yang
lebih kecil.
• Concept hierarchy generation, yaitu langkah untuk menambahkan hierarki baru di
dalam dataset. Misalnya, di dalam dataset berisi ayam dan bebek, maka kita bisa
menambahkan hierarki baru untuk menggabungkan keduanya, yaitu unggas.

4. Data Reduction
Langkah ini bertujuan untuk mengurangi jumlah sampel data yang diambil. Ukuran
dataset di data warehouse bisa terlalu besar untuk ditangani oleh analisis data dan
algoritma data mining. Salah satu solusi yang bisa diambil adalah mendapatkan
representasi tereduksi dari dataset yang volumenya jauh lebih kecil tetapi menghasilkan
kualitas hasil analitik yang sama.

Saat melakukan data reduction, ada 3 teknik yang bisa diterapkan, diantaranya:
• Attribute selection, yaitu dengan mengombinasikan tag atau feature, sehingga data
bisa lebih sederhana lagi. Misalnya, pada dataset ada tags laki-laki/perempuan dan
professor. Kita bisa menggabungkan kedua tags tersebut menjadi profesor laki-
laki/profesor perempuan.
• Numerosity selection, yaitu merepresentasikan data sebagai model atau persamaan
seperti model regresi. Pemodelan ini akan menghemat beban penyimpanan data dan
transmisi data.
• Dimensionality reduction, yaitu teknik pengurangan jumlah fitur yang berulang pada
dataset.

Anda mungkin juga menyukai