Pada data di bidang biomedis memiliki ribuan atribut serta ribuan jumlah record
yang saling berkorelasi (multicolinearity) dan menghasilkan data yang kompleks
[2]. Data yang kompleks memiliki banyak kebisingan (noise), anomali (outlier),
elemen yang hilang (missing value), tidak konsisten dan juga entitas data tidak
berhubungan [3] [4] sehingga membutuhkan pengolahan awal data [5].
Pengolahan awal data diterapkan sebelum masuk ke model datamining yang
sesungguhnya dan secara substansial dapat meningkatkan kualitas keseluruhan
dari pola datamining [6]. Commented [i4]: Menjawab mengapa perlu Pra Pengolahan data
Teknik pengurangan dimensi merupakan bagian dari pengolahan awal data, yang
merupakan teknik penting dan menjadi teknik mendasar dalam sebagian besar
proses data mining ketika menghadapi data yang kompleks [7] [8]. Tujuan dari
teknik pengurangan dimensi adalah untuk mendapatkan representasi data baru
yang dikelola menjadi dimensi lebih rendah [9]. Representasi data baru ditinjau
dari sudut waktu dan kompleksitas komputasi yang jauh lebih efektif untuk
pengolahan data berikutnya, misalnya untuk klasifikasi, assosiasi, prediksi,
estimasi dan analisis pengelompokan [10]. Commented [i5]: 1. Mengapa perlu efisiensi waktu
2.Teknik yang diapakai dalam pra pengolahan data
Ekstraksi atribut secara umum diklasifikasikan menjadi linier dan nonlinier [13].
ISOM AP (Isometric Feature M apping) LLE (Local Linear Embedded) [5]
kernelPCA, Generalised Singular Value Decomposition (GSVD), Generaised
Partial Leat Square (GPLS) dan Maximum Variancesce Unfolded (M VU)
tergolong algoritma nonlinier [18] [19]. Principal component analysis (PCA),
linear discriminant analysis (LDA), independent component analysis (ICA)
singular value decomposition (SVD) [13] Canonical Correletion Analysis (CCA),
Partial Least Square (PLS) dan Latent Semantic Indexing (LSI) tergolong
algoritma linier [20] [21] .
Algoritma Latent Semantic Indexing (LSI), adalah teknik aljabar linier yang
menggunakan algoritma Singular value decomposition (SVD) untuk menguraikan
matriks [18] [19]. Algoritma Canonical Correlation Analysis (CCA) adalah
eksplorasi korelasi antara dua set sampel variabel kuantitatif, namun kekurangan
algoritma CCA kurang akurat ketika jumlah unit data kurang dari jumlah variable
terbesar dari kedua data set [21]. Algoritma Partial Least Squares (PLS) adalah
teknik yang terkenal untuk ektraksi atribut, metode untuk menganalisis hubungan
antara data set melalui variabel laten, namun lemah di proyeksi linier [22].
Algoritma Linear Discriminant Analysis (LDA) termasuk teknik ekstraksi atribut
yang banyak digunakan [20] namun LDA tidak stabil pada data yang berdimensi
tinggi pada kasus class scetter matrix untuk dijadikan nlai matrix singular
(matriks tunggal) [23]. Algoritma Independent Component Analysis (ICA) dan
FastICA (extension of ICA) termasuk teknik analisa komponen dasar sama seperti
PCA, namun lemah di teknik pengurangan dimensi [24]. Commented [i7]: Membahas METODE-METODE /MODEL
yang ada termasuk kelebihan dan kekuurangan Metode/model
Teknik aljabar linier secara signifikan lebih sederhana dari Canonical Correlation
Analysis (CCA), Partial Least Square (PLS) dan Linear Discriminant Analysis
(LDA) [7]. Algoritma yang termasuk teknik aljabar linier adalah algoritma
Singular Value Decomposition (SVD) dan Principal Component Analysis (PCA) Commented [i8]: Mengapa Memilih Algoritma PCA dan SVD
CATATAN:
Algoritma Principal Component Analysis (PCA) diperkenalkan oleh Pearson dan UNTUK ANAK Strata 1 (S1) CUKUP MASALAH PADA
OBJEK PENELITIAN
Hotelling termasuk metode eksplorasi statistik multidimensi dengan latar
belakang matematika aljabar linier dan eigen analysis. Cara kerja PCA adalah
menemukan himpunan bilangan orthogonal dengan menggunakan teknik SVD
[37]] [38] dari proyeksi matriks vektor pada atribut ekstraksi dengan
memaksimalkan variancess data, kemudian mengurangi dimensi melalui
kombinasi linear dari variabel awal tanpa mengorbankan akurasi [17] [3].
Berdasarkan dari paparan pada rangkuman diatas, maka pada penelitian ini
mengusulkan “Pengolahan Awal Data dan Penerapan Algoritma Singular Value
Decomposition (SVD) untuk M emaksimalkan Variances Score Principal Analysis
dan Efisiensi Waktu pada Algoritma Principal Component Analysis (PCA)”. Commented [i12]: TUJUAN penelitian,..pada tahap inilah
muncul JUDUL/THEMA
Masalah umum:
Tersedianya jumlah basis data biomedis yang berlimpah, berupa basis data publik
(internet) dimana datasetnya dari peneliti-peneliti individu dan dari praktek-
praktek klinik, dan juga tersedia berupa digitisasi informasi, seperti laporan lab,
data pasien, paper penelitian, gambar anatomik dan sejumlah data perawatan
pasien. Namun dataset biomedis memiliki ribuan atribut serta ribuan jumlah
record yang saling berinteraksi yang menghasilkan data kompleks dan berskala
besar. Commented [i13]: Masalah umum yang dijabarkan adalah obejk
penelitian,.masalah umum ini untuk anak S1 diterapkan MASALAH
pada OBJEK ATAU masalah ini yang digarap oleh ANAK
STRATA 1 (SI)
Masalah spesifik:
Algoritma Singular Value Decomposition (SVD) tepat digunakan untuk
memproses dataset yang berskala besar dan kompleks, dan cepat dalam
memproses dataset yang berskala besar, namun hasil data ekstrak SVD kurang
maksimal dibanding dengan PCA.
Pertanyaan penelitian ini yaitu, seberapa cepat waktu proses dan seberapa
maksimal nilai variances score principal component pada algoritma PCA, jika
dataset diproses terlebih dahulu menggunakan algoritma Singular Value
Decomposition (SVD). Commented [i15]: Pertanyaan Penelitian yang harus dijawan
pada BAB V Kesimpulan dan saran.
1.3 Tujuan Penelitian
Tujuan dari penelitian ini adalah untuk memaksimalkan variances score principal
component dan efisiensi waktu proses pada algoritma Principal Component
Analysis (PCA) Commented [i16]: 1.Tujuan Penelitian nyambung dengan
TUJUAN pada latar belakang masalah
2. Tujuan penelitian sama dengan JUDUL/Thema yang anglat diteliti.
Commented [i17R16]:
1.4 Manfaat Penelitian
M anfaat dari penelitian ini adalah:
1. M anfaat Umum:
Penelitian ini sangat membantu para peneliti dan praktisi biomedis, untuk
memproses informasi yang belum terorganisir, dimana penelitian ini
menghasilkan data yang telah siap pakai atau siap diproses pada model
datamining, agar nantinya bermanfaaat pada masyarakat umum.
2. M anfaat ilmu pengetahuan
Jumlah atribut yang telah dikurangi dan hasil nilai varian pada scores principal
component yang lebih maksimal serta atribut yang tidak saling berkorelasi dapat
dijadikan sebagai input variable, dan sangat berpengaruh pada efisiensi waktu
proses serta dapat meningkatkan akurasi, antara lain:
a) M odel cluster
b) Analisa regresi berganda
c) Analisa diskriminan
d) Analisa factor
e) Klasifikasi dengan menggunakan Neural Net Commented [i18]: MANFAAT adalah setelah TUJUAN
TERCAPAI,.manfaat kepada masyarakat tidak bisa diukur,..jadi yang
diukur adalah Hasil pada Penerapan METODE