Anda di halaman 1dari 5

RESUME 2

PENGANTAR DATA MINING

MUSFITA
H071181012

UNIVERSITAS HASANUDDIN
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
PRODI ILMU KOMPUTER
MAKASSAR
2020
Prediksi Dimensi
Adapun untuk dapat menggunakan metode seperti neural network maka kita memerlukan metode
preprocessing seperti Label Encoding dan One Hot Encoding. Tujuannya adalah mengubah data
kategori menjadi data numerik terlebih dahulu.
Label Encoding
label encoding mengacu pada proses transformasi label kata menjadi bentuk
numerik. dalam hal regresi jika memuat varibel kategori dan nilainya tidak bisa di
faktorisasi dalam bentuk tingkatan, dilakukan proses dummy, setiap nilai didalam
variabel itu menjadi variabel lain.
Label ini penting jika ingin model prediksi khususnya tentang klasifikasi atau
kelompok tertentu kemudian dikode dalam bentuk numerik. Label ini berupa symbol.
One Hot Encoding
misalnya proses di mana variable kategori diubah menjadi bentuk yang dapat
diberikan ke algoritma machine learning untuk melakukan pekerjaan yang lebih baik.
Ini mengacu pada pemisahan kolom yang berisi data kategorikal ke banyak kolom
tergantung pada jumlah kategori. Setiap kolom berisi "0" atau "1" yang sesuai dengan
kolom mana label atau kategori tersebut berada.
Data Integration
Integrasi data menggabungkan data dari berbagai sumber database yang berbeda
ke dalam sebuah penyimpanan seperti gudang data (data warehouse). Alasan perlunya
dilakukan integrasi data adalah:

 Data yang sama (misalnya: data penduduk) dapat dipakai bersama antar bagian
organisasi (antar instansi).

 Data suatu instansi dapat dipakai bersama oleh instansi-instansi lain yang
memerlukan (tidak perlu ada duplikasi data dalam suatu lingkungan organisasi).

 Meskipun fokus integrasi adalah data, tapi perlu juga integrasi hal-hal lain yang
terkait.

 Integrasi data perlu dilakukan secara cermat karena kesalahan pada integrasi data
bisa menghasilkan ouput/keluaran yang menyimpang dan bahkan menyesatkan
pengambilan keputusan nantinya.
Adapun alasan diperlukannya integrasi data karena beberapa keuntungan yang
bisa kita dapatkan :

 Mempermudah dalam proses menganalisa untuk pengambilan keputusan


 Sharing data antar lingkungan kerja
 Terhindar dari adanya duplikat data
Masalah dalam Integrasi

 Skema integrasi,
 Redundansi kadang ada atribut yang double.
 Deteksi dan resolusi konflik nilai data pada data table biasa terjadi inkonsistensi.
Mengatasi Redundansi
 identifikasi objek,
 Derivable data,
 Redundansi attribute dideteksi nilai korelasi dan Analisa kovarian.
 Dilakukan dengan hati-hati dengan ini dapat meningkatkan kecepatan proses
datamining.
Reduksi dimensi
jika ukuran daripada fitur dataset terlalu besar ini menjadi hal yang penting dalam
proses datamining tetapi salah satu masalah dapat membuat beberapa informasi penting
hilang.
Cara Reduksi Dimensi
Seleksi fitur

 Univariate selection
 Feature Importance
 Correlation Matrix with Heatmap dst

Biasanya feature selection dilakukan dengan meranking urutan dari pada


fitur yang mana lebih tinggi nilai kinerjanya. Kemudian dipilih secara rankingnya.
Untuk mengetahui seberapa besar atau seberapa bagus model yang dibentuk dari
fitur yang diseleksi tersebut.
Ekstraksi fitur

 LDA (Linear Discriminant Analysist)


LDA bekerja dengan mencari kombinasi atribut terbaik yang dapat
memisahkan kelas-kelas pada dataset. Kontras dengan PCA yang bekerja
dengan mencari atribut komponen yang memiliki variance tertinggi.
 PCA (Principal Component Analysist)
PCA mereduksi dimensi dari suatu set data, yang awalnya
berukuran m dimensi ke p dimensi, di mana p ini bisa ≤ m. Secara
sederhana, tujuan dari PCA adalah mengurangi jumlah atribut pada dataset
tanpa mengurangi informasi.
 t-SNE (t-distributed Stochastic Neighbor Embedding) dst.
t-SNE sering dipakai untuk visualisasi data yang memiliki dimensi
besar dan dipakai luas dalam pemrosesan gambar, pemrosesan bahasa
alami, data genomika, dan speech processing
PERCOBAAN

Anda mungkin juga menyukai