Anda di halaman 1dari 30

TUGAS OMICS

PENGGUNAAN SIMCA
(Soft Independent Modelling by Class Analogy)
DALAM ANALISIS METABOLOMIK
Diajukan sebagai tugas OMICS yang
dibimbing oleh Dr. Tri Rini Nuringtyas, S.Si., M.Sc.

Oleh :
Digdo Sudigyo
17/419967/PMU/09178

PROGRAM STUDI MAGISTER BIOTEKNOLOGI


SEKOLAH PASCASARJANA
UNIVERSITAS GADJAH MADA
2018
A. Software SIMCA
Soft independent modelling by class analogy (SIMCA) adalah metode statistik untuk
klasifikasi data yang diawasi. Metode ini membutuhkan satu set data pelatihan yang terdiri
dari sampel (atau objek) dengan satu set atribut dan keanggotaan kelas mereka. Istilah soft
mengacu pada fakta bahwa pengelompokkan dapat mengidentifikasi sampel sebagai milik
beberapa kelas dan tidak perlu menghasilkan klasifikasi sampel ke dalam kelas yang tidak
tumpang tindih (Svante and Michael, 1977). Sampel data pada SIMCA diklasifikasikan dalam
bentuk model kelas berdasarkan tingkat persamaannya. Pengelompokkan kelas berdasarkan
atas model global, perhitungan jarak pengamatan dengan variabel, dan perhitungan
probabilitas keanggotaan kelas. SIMCA sangat sensitif terhadap kualitas data yang dalam
menghasilkan model pemetaan sebagai komponen utama. Model diagnostik yang dihasilkan
dalam menilai kualitas data merupakan kekuatan pemodelan dan kekuatan diskriminatif.
Kekuatan pemodelan menunjukkan tingkat kualitas variabel dalam komponen utama untuk
variasi model, dan kekuatan diskriminatif dalam mengklasifikasikan sampel dalam
sekumpulan data. Variabel dengan tingkat kekuatan pemodelan dan kekuatan diskriminatif
yang kecil sering dihapus dari data karena dapat merusak komponen utama dalam variasi
model (Camo 2018).
Agar dapat membangun model klasifikasi, sampel yang termasuk dalam masing-masing
kelas perlu dianalisis menggunakan analisis komponen utama (PCA) yang merupakan
komponen penting yang dipertahankan.Penggunaan analisis Principle Component Analisis
(PCA) pada SIMCA untuk menggambarkan kumpulan data. Hal tersebut menyebabkan
pengurangan jumlah variabel yang menunjukkan aktifitas biologis atau sifat kimia ke dalam
variabel independen yang lebih kecil. Hal tersebut dapat dilihat dari analisis dari matrik
korelasi dari sifat biologi atau kimia (Wiklund 2008). Untuk kelas tertentu, model yang
dihasilkan kemudian menggambarkan garis (untuk satu Komponen Utama atau PC), bidang
(untuk dua PC) atau hyper-plane (untuk lebih dari dua PC). Untuk setiap kelas model, rata-
rata jarak ortogonal sampel data pelatihan dari garis, bidang, atau hyper-plane (dihitung
sebagai standar deviasi sisa) digunakan untuk menentukan jarak kritis untuk klasifikasi. Jarak
kritis ini didasarkan pada distribusi-F dan biasanya dihitung menggunakan interval
kepercayaan 95% atau 99%. Pengamatan baru diproyeksikan ke setiap model PC dan jarak
sisa dihitung. Pengamatan ditugaskan ke kelas model ketika jarak sisa dari model di bawah
batas statistik untuk kelas. Pengamatan dapat ditemukan milik beberapa kelas dan ukuran
kebaikan model dapat ditemukan dari jumlah kasus di mana pengamatan diklasifikasikan ke
dalam beberapa kelas. Efisiensi klasifikasi biasanya ditunjukkan oleh karakteristik penerima
operasi (Svante and Michael, 1977).
Dalam metode SIMCA asli, ujung hyper-plane dari masing-masing kelas ditutup dengan
menetapkan batas kontrol statistik sepanjang sumbu komponen utama yang dipertahankan
(yaitu, nilai skor antara plus dan minus 0,5 kali skor standar deviasi). Adaptasi terbaru dari
metode SIMCA menutup hyper-plane dengan konstruksi ellipsoids (contohnya ada Hotelling's
T2 atau Mahalanobis-Distance). Dengan metode SIMCA yang dimodifikasi,
pengklasifikasian suatu objek mensyaratkan bahwa jarak ortogonal dari model dan proyeksi
dalam model (yaitu nilai skor dalam wilayah yang ditentukan oleh ellipsoid) tidak signifikan.
SIMCA sebagai metode klasifikasi telah banyak digunakan terutama dalam bidang statistik
terapan seperti chemometrics dan analisis data spektroskopi (Svante and Michael, 1977).
B. Tahap Penggunaan SIMCA
1. Buka software SIMCA, lalu klik file untuk membuka data yang akan diproses.

2. Lalu Klik New, untuk memproses file baru yang akan dianalisis.
3. Pilih Reguler Project untuk memproses data baru (jika banyak file yang akan dianalsis
maka dapat dipilih Batch Project)

4. Pilih file data yang akan di Analisis, lalu klik Open untuk membuka data.
5. Pilih satu check list untuk mempersempit variabel yang ada pada worksheet data dalam
contoh ini pada data Excel Worksheet.

6. Block pada setiap variabel pada setiap baris dalam worksheet (pada warna kuning selain
title) lalu klik Secondary Observation ID.
7. Block kolom pada baris pertama dalam worksheet lalu klik Primary variable ID, lalu
akan muncul warna hijau pada kolom pertama.

8. Lalu klik Finish Import untuk menyimpan data yang akan dianalisis dalam bentuk
SIMCA Project (.usp) lalu diberi nama sesuai yang dikehendaki.
9. Setelah Finish Import, maka ditampilkan Project Window sebagai berikut untuk
memperlihatkan model data yang akan dianalisis, secara otomatis akan dianalisis terlebih
dahulu dalam PCA-X. Pada kolom Project Window terdapat R2 (fit) menunjukkan
variabel tetap dan adanya variasi yang telah dijelaskan serta merupakan variabel untuk
hampir semua model atau variabel individu. (Wiklund, 2008).
10. Klik Autofit untuk melihat analisis komparatif data dalam bentuk grafik batang. Adanya
Q2 (predictive ability) pada kolom Project Windows menunjukkan cross validation,
memprediksi setiap blok data yang hilang dan memprediksi rata-rata hasilnya. Model
diagnostik R2 selalu lebih besar dibandingkan dengan Q2. Perbedaan antara R2 dan Q2
seharusnya tidak terlalu besar. Q2 = 0.5 merupakan model yang baik, tipe untuk
metabolomik. Q2 = 0.9 dengan nilai maksimal untuk model pada tipe untuk kalibrasi.
(Wiklund 2008). Pada di bawah, besar Q2 = 0.578 yang menunjukkan model yang baik
untuk tipe kalibarsinya.

11. Klik Score, lalu pilih Scatter untuk melihat analisis Scatter plot menggunakan analisis
PCA-X.
Maka ditampilkan grafik dalam bentuk scatter plot untuk hasil analisisnya menggunakan
PCA-X.
11. Klik kanan pada data model dalam kolom Project Window, lalu pilih Edit Model 1 untuk
mengedit data pada worksheet yang diinginkan.

12. Pilih halaman tabulasi pada scale, kemudian block semua data yang ada dan ubah UV
menjadi Par pada kolom type lalu klik set untuk mengubah.

Pengubahan UV menjadi Par bertujuan untuk membagi tiap variabel berdasarkan


root square dari SD (standar deviasi). Selain itu untuk membuat intermediet antara no
scaling (Ctr, mean centre only) dan UV (mean centre and autoscale), serta menaikkan
fitur medium tanpa menaikkan baseline noise (Wiklund 2008).
13. Maka akan terlihat perbedaan hasil analisis grafik dalam bentuk scatter plot maupun
grafik batang.

Scatter plot berfungsi menggambarkan plot dari observation (Genus, Species, dan
No.ID). Penamaan label dan warna dapat diganti sesuai jenis observation yang
dikehendaki.
14. Klik gambar grafik scatter plot dan pilih Properties.

15. Pilih Color untuk mengubah warna plot menjadi lebih spesifik dengan mengubah default
colouring menjadi Identifiers.
16. Ketika muncul tampilan baru dari coloring type, ubah model warna pada ID dengan
mengubah Obs ID (Primary) menjadi Obs ID (Genus) (dalam kasus ini untuk melihat
pengelompokkan data berdasarkan Genusnya).

17. Scatter Plot akan menunjukkan warna yang berbeda beda sesuai dengan genus yang
dikelompokkan dalam data.
Pada menu Score, Pred. Comp bisa diubah dan dipilih yang paling bisa
memisahkan secara sempurna. dengan PC 1 dengan PC 2, maupun perbandingan lainnya
untuk menghasilkan pemisahan yang sempurna berdasarkan Class pada observation.
18. Klik Loading untuk memproses grafik yang baru berdasarkan obervasi ID genus, lalu
klik Loadings, lalu pilih scatter untuk melihat hasil grafik Scatter Plot.

Maka dihasilkan hasil analisis scatter plot berdasarkan observasi ID genus.


19. Untuk grafik batang dalam bentuk column plot, klik Loadings lalu pilih Column untuk
melihat korelasi data tersebut dengan variabel yang dianalisis.

Maka akan muncul hasil grafik dari Column Plot merupakan ringkasan dari variables
(pergeseran kimia) yang menjelaskan observations pada scores plot sebagai berikut.
20. Klik kanan pilih Editing Model kembali atau buat baru data model (untuk dianalisis
dengan analisis PLSDA), pilih New Model. Lalu pilih Observations.
21. Lalu kelompokkan data-data tersebut dalam suatu Class dengan penomoran lalu klik Set
untuk selesai penomoran dengan mengelompokkan curcuma, bosenbergia sebagai
kelompok 1 dan zingiber dan kaempheria sebagai kelompok 2. Pilih PLS-DA untuk
analsisnya lalu klik OK.

PLS dan OPLS digunakan dalam analisis untuk melihat tingkat diskriminatif data
antara lain melihat tingkat diskriminatif antar kelompok, melihat kandidat biomarker, dan
membandingkan pengamatan atau instrumentasi. PCA sendiri digunakan dalam melihat
klasifikasi untuk mengenal pola suatu data. Selain itu, PCA juga dapat digunakan untuk
diagnostik, untuk mengklasifikasi kelompok yang sehat atau yang sakit, untuk
mengetahui progresi penyakit maupun mekanisme toksisitas (Wiklund 2008).
22. Klik Autofit untuk melihat grafik batang dari hasil analisis PLS-DA.

23. Klik Loadings, lalu pilih Scatter untuk melihat hasil grafik scatter plot dari analisis PLS-
DA.
24. Klik Loadings, lalu pilih Column untuk melihat hasil grafik column plot dari analisis
PLS-DA.

25. Blok daerah atau plot yang akan dilihat dengan ditandai oleh perubahan warna baik pada
grafik scatter plot.
26. Setelah ditandai (markering) pada scatter plot, maka pada column plot akan berubah
warnanya pada plot yang sudah diblok pada scatter plot, sehingga dapat diketahui
korelasi yang ditandai.
27. Untuk melihat daftar tabulasi data-data yang dimarker, klik kanan pada gambar grafik,
lalu pilih Create. Lalu pilih List.

Setelah klik List maka dihasilkan daftar data-data yang telah dimarker sebagai berikut.
28. Untuk analisis permutasi, pilih Analyze pada menu utama diatas, lalu kilik
Permutations.

Ubah jumlah permutasinya pada kolom Number of permutations to dari 100 menjadi
20. Lalu Klik OK.
Sehingga didapatkan hasil permutasi sebagai berikut.

Grafik Permutasi tersebut menunjukkan hubungan antara data yang dianalisis. Analisis
permutasi digunakan untuk validasi. Data dikatakan baik apabila 2 komponen data
tersebut terpisah, seperti terlihat pada gambar tersebut.
29. Untuk melihat analisis variasinya maka dipilih CV-ANOVA pada menu Analyze.
Sehingga ditampilkan hasil analisis ANOVA sebagai berikut untuk melihat beda nyata
dan signifikansi pada data worksheet yang dianalisis.

30. Untuk melihat hasil analisis dengan menggunakan OPLS-DA, klik kanan pada data di
Project Window lalu pilih Edit Model atau New as Model.

Analisis OPLS lebih cenderung memprediksikan informasi pada satu komponen


dan komponen sistematik lain akan ditemukan pada komponen yang lebih tinggi, serta
memperbaiki model visualisasi dan interpretasi, pemisahan data berdasarkan prediksi
maupun informasi yang tidak berkorelasi (Wiklund 2008).
31. Lalu ubah PLS-DA menjadi OPLS-DA pada kolom model type. Lalu klik OK.

32. Untuk melihat grafik batangnya sama seperti PLS-DA yaitu klik Autofit.
33. Untuk melihat hasil gambar dari analisis OPLS-DA Scatter Plot, klik Loadings. Lalu
pilih Scatter.

34. Untuk melihat hasil gambar dari analisis OPLS-DA Column Plot, klik Loadings. Lalu
pilih Column.
35. Untuk analisis permutasi dari OPLS-DA, pilih Analyze pada menu utama diatas, lalu
kilik Permutations.

Ubah jumlah permutasinya pada kolom Number of permutations to dari 100 menjadi
20. Lalu Klik OK.
Sehingga didapatkan hasil permutasi sebagai berikut.

Berdasarkan grafik permutasi menunjukkan bahwa hasil dari analisis OPLS-DA


tersebut kurang baik karena garis antara R2 dan Q2 saling berdekatan. Tidak terlihat
trend pemisahan yang baik.

36. Untuk melihat analisis variasinya dari OPLS-DA maka dipilih CV-ANOVA pada menu
Analyze.
Sehingga ditampilkan hasil analisis ANOVA sebagai berikut untuk melihat beda nyata
dan signifikansi pada data worksheet yang dianalisis.
Berdasarkan data ANOVA yang didapat. Regresi P yang dianalisis menggunakan
PLS-DA lebih kecil, yaitu 0.005 jika dibandingkan dengan OPLS-DA yaitu sebesar
5.804. karena terlalu besar nilai yang dihasilkan, sehingga hal tersebut menandakan
bahwa data yang dianalisis menggunakan PLS-DA lebih baik daripada dengan OPLS-
DA. Berdasarkan hasil kesimpulan diatas bahwa hasil analisis dengan menggunakan
PLS-DA lebih baik dibandingkan OPLS-DA baik dari nilai permutasi dan ANOVA nya.
Sumber :
Camo. 2018. SIMCA - Soft Independent Modeling of Class Analogy. CAMO Software AS.
http://www.camo.com/resources/simca.html. Diakses pada tanggal 12 Mei 2018.
Svante W., and S. Michael. 1977. SIMCA: A method for analyzing chemical data in terms of
similarity and analogy. Dalam Kowalski, B.R. Chemometrics Theory and
Application, American Chemical Society Symposium Series 52. Washington
D.C. : American Chemical Society. pp. 243-282.
Wiklund, S. 2008. Multivariate Data Analysis for Omics. Umetrics AB. 08-08-15

Anda mungkin juga menyukai