Anda di halaman 1dari 4

NIM : 1811521009 Tanggal : Jumat, 25 September 2020

Nama : Mayang Sari Deyuvi Asisten :


Mata Kuliah : Praktikum Data Mining 1. Rifqi Hadi Putra
Modul : 04 2.
Kelas : 03

Resume “Dimensioinality Reduction 1”

Reduksi data adalah proses analisis untuk memilih, memusatkan


perhatian, meyederhanakan, mengabstraksikan serta mentransformasikan
data yang muncul dari catatan-catatan lapangan.  Mereduksi data berarti
membuat rangkuman, memilih hal-hal pokok, memfokuskan pada hal-hal
penting, mencari tema dan pola, serta membuang yang dianggap tidak perlu.
Didalam Gudang data terdapat Terabyte data yang ukurannya relatif sangat
besar sehingg analisis/menambang data kompleks bisa membutuhkan waktu
sangat lama untuk dijalankan pada data set komplit (tak efisien).
Metode reduksi dimensionalitas data bekerja dengan cara tertentu untuk
menangkap karakteristik data dengan memetakan set data dari dimensi semula ke
dimensi lain yang relatif rendah. Pemetaan ini menghasilkan prinsipal componen
yang kemudian dapat diambil komponen atau fitur dari dimensi baru yang
mempunyai pengaruh yang besar pada set data dan membuang data yang tidak
berpengaruh. salah satu metode yang sudah digunakan secara luas adalah Principal
Component Analysis.

Principal Component Analysis (PCA) pertama kali diperkenalkan oleh


Karl Pearson pada tahun 1901. Harold Hotelling melakukan Analisa untuk
variabel stokastik. Hotelling menggunakan pendekatan PCA yang sebelumnya
telah dikemukakan oleh Pearson dan memperkenalkan istilah “Component”
sebagai variabel baru yang dihasilkan atau direduks. Inilah cikal bakal PCA.

Principal Metode ini melakukan pemetaan/tranformasi set data dari


dimensi lama kedimensi yang baru dengan memanfaatkan tehnik Aljabar
Linier. PCA memerlukan masukan data yang mempunyai sifat zero-mean
pada setiap fitur nya. sifat zero-mean didapat dengan mengurangkan semua

Praktikum Data Mining


nilai dengan nilai rata-rata nya. Set data X dengan dimensi M x N dimana M
adalah jumlah data dan N adalah jumlah Fitur .

Tujuan dari analisa PCA adalah untuk mereduksi variabel yang ada
menjadi lebih sedikit tanpa harus kehilangan informasi yang termuat dalam
data asli atau data awal. Dengan menggunakan PCA, variabel yang tadinya
sebanyak n variabel akan direduksi menjadi k variabel baru (principal
component) dengan jumlah k lebih sedikit dari n dan dengan hanya
menggunakan k principal component akan menghasilkan nilai yang sama
dengan menggunakan n variabel. Variabel hasil dari reduksi tersebut
dinamakan principal component (komponen utama) atau bisa juga disebut
faktor. Sifat dari variabel baru yang terbentuk dengan analisa PCA nantinya
selain memiliki jumlah variabel yang berjumlah lebih sedikit tetapi juga
menghilangkan korelasi antar variabel yang terbentuk.

Tugas Praktikum

1. import dengan library pandas, disimpan pada variabel data.

Praktikum Data Mining


2. kemudian masukkan library StanardScaler untuk standarisasi data.

3. Kemudian gunakan library PCA pada modul “sklearn.decomposition”


untuk menentukan target dimensi komponen data (mengubah 4D
kedalam bentuk 2D).

Gunkan fungsi fit_transform digunakan untuk mengkonversi nilai


yang semula 4D ke dalam komponen utama target dimensi. Setelah itu
simpan data yang telah dikonversikan kedalam sebuah dataframe
pada variabel “principalDf”. Kemudian gabungkan field yang bernilai
string (y) kedalam dataframe. Seperti gambar berikut:

1. Lakukan visualisasi data yang telah diubah menggunakan plot yang ada
pada library matplotlib. Pilih nilai-nilai yang akan ditampilkan ke dalam

Praktikum Data Mining


grafik plot, kemudian untuk menampilkan nilai nilai yang telah dipilih.

Praktikum Data Mining

Anda mungkin juga menyukai