MUSFITA
H071181012
UNIVERSITAS HASANUDDIN
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
PRODI ILMU KOMPUTER
MAKASSAR
2020
Prediksi Dimensi
Adapun untuk dapat menggunakan metode seperti neural network maka kita memerlukan metode
preprocessing seperti Label Encoding dan One Hot Encoding. Tujuannya adalah mengubah data
kategori menjadi data numerik terlebih dahulu.
Label Encoding
label encoding mengacu pada proses transformasi label kata menjadi bentuk
numerik. dalam hal regresi jika memuat varibel kategori dan nilainya tidak bisa di
faktorisasi dalam bentuk tingkatan, dilakukan proses dummy, setiap nilai didalam
variabel itu menjadi variabel lain.
Label ini penting jika ingin model prediksi khususnya tentang klasifikasi atau
kelompok tertentu kemudian dikode dalam bentuk numerik. Label ini berupa symbol.
One Hot Encoding
misalnya proses di mana variable kategori diubah menjadi bentuk yang dapat
diberikan ke algoritma machine learning untuk melakukan pekerjaan yang lebih baik.
Ini mengacu pada pemisahan kolom yang berisi data kategorikal ke banyak kolom
tergantung pada jumlah kategori. Setiap kolom berisi "0" atau "1" yang sesuai dengan
kolom mana label atau kategori tersebut berada.
Data Integration
Integrasi data menggabungkan data dari berbagai sumber database yang berbeda
ke dalam sebuah penyimpanan seperti gudang data (data warehouse). Alasan perlunya
dilakukan integrasi data adalah:
Data yang sama (misalnya: data penduduk) dapat dipakai bersama antar bagian
organisasi (antar instansi).
Data suatu instansi dapat dipakai bersama oleh instansi-instansi lain yang
memerlukan (tidak perlu ada duplikasi data dalam suatu lingkungan organisasi).
Meskipun fokus integrasi adalah data, tapi perlu juga integrasi hal-hal lain yang
terkait.
Integrasi data perlu dilakukan secara cermat karena kesalahan pada integrasi data
bisa menghasilkan ouput/keluaran yang menyimpang dan bahkan menyesatkan
pengambilan keputusan nantinya.
Adapun alasan diperlukannya integrasi data karena beberapa keuntungan yang
bisa kita dapatkan :
Skema integrasi,
Redundansi kadang ada atribut yang double.
Deteksi dan resolusi konflik nilai data pada data table biasa terjadi inkonsistensi.
Mengatasi Redundansi
identifikasi objek,
Derivable data,
Redundansi attribute dideteksi nilai korelasi dan Analisa kovarian.
Dilakukan dengan hati-hati dengan ini dapat meningkatkan kecepatan proses
datamining.
Reduksi dimensi
jika ukuran daripada fitur dataset terlalu besar ini menjadi hal yang penting dalam
proses datamining tetapi salah satu masalah dapat membuat beberapa informasi penting
hilang.
Cara Reduksi Dimensi
Seleksi fitur
Univariate selection
Feature Importance
Correlation Matrix with Heatmap dst