Anda di halaman 1dari 5

Pra-pemrosesan

Pra-pemrosesan dan pra-perawatan data adalah dua istilah yang digunakan secara berbeda di
berbagai bidang sains. Ebbels dkk. [3] mengacu pada pra-pemrosesan sebagai fase transformasi
Fourier dalam NMR, dekonvolusi metabolit yang tumpang tindih di LC-MS atau GC-MS dan teknik
lain yang digunakan baik saat mengekstraksi data atau saat menyiapkan dataset untuk analisis.
Mereka memesan pra-perawatan untuk normalisasi, scaling, koreksi dasar dan metode lain yang
digunakan pada dataset untuk membuat sampel dapat dianalisis dan diperbandingkan. Dalam
chemometrics dan statistik terapan, pra-pemrosesan digunakan sebagai istilah umum yang
mencakup semua pengeditan data hingga titik memulai analisis statistik. Saya membahas secara
singkat beberapa teknik pra-pemrosesan yang terkait dengan analisis multivariat berikut ini. Urutan
eksekusi terbuka untuk diperdebatkan dan terkadang diatur lebih oleh pertimbangan praktis
daripada analisis statistik yang optimal.

1. Binning

Ketika spektrum kontinu dicatat oleh NMR atau teknik lain yang menghasilkan puluhan atau ratusan
ribu pengukuran per spektrum, binning terkadang bisa menjadi pintar. Di sini, binning (juga disebut
bucketing) berarti membagi spektrum Anda menjadi jumlah sampah yang diinginkan, cara yang sama
seperti histogram, dan menjumlahkan semua pengukuran di dalam setiap bin untuk membentuk
spektrum baru dengan variabel yang lebih sedikit. Ada beberapa alasan untuk melakukan ini, dan
cara itu dilakukan mempengaruhi hasil analisis.

Alasan paling sederhana untuk melakukan binning adalah bahwa jumlah variabel dapat terlalu tinggi
untuk menangani masalah dalam memori komputer biasa. Lebih menarik adalah pemulusan implisit
dari spektrum yang dicapai oleh binning dan potensi untuk mengoreksi pergeseran puncak kecil.
Keduanya dapat berbahaya jika tidak ditangani ketika teknik analisis multivariat sensitif digunakan
kemudian, sehingga lebih mungkin bahwa analisis ini akan dipengaruhi oleh korelasi palsu dalam
kebisingan.

Aspek lain adalah resolusi informasi yang dapat diharapkan oleh instrumen untuk diserahkan dan
resolusi informatif dari metabolit yang dianalisis. Tidak ada informasi tambahan yang diperoleh dari
memiliki resolusi spektral yang jauh lebih tinggi daripada resolusi puncak fisik dari senyawa yang
menghasilkan spektra. Jika volume dan keunikan dari suatu puncak dapat digambarkan oleh tiga
angka, tidak ada alasan untuk memasukkan 20 angka lain untuk menggambarkan bentuknya jika kita
hanya tertarik pada volume dan keunikan.

Penempatan tempat sampah yang buruk juga dapat menghapus informasi atau menghasilkan
informasi palsu. Jika tempat sampah terlalu lebar, mereka dapat menutupi lebih dari satu puncak
nyata dan dengan demikian mengurangi konten informasi. Jika puncaknya sedikit bergeser, bagian
atasnya mungkin jatuh ke nampan yang salah, tambahkan ke volume puncak yang berdekatan atau
dibagi lebih dari dua bins, yang semuanya membuat analisis statistik berikutnya kurang tepat. Pada
Gambar 2 (a), kita melihat contoh binning (tong lebar), di mana beberapa puncak puncak berada
dekat dengan batas bin sehingga pergeseran kecil akan memindahkan bagian atas ke nampan lain.
Pada Gambar. 2 (b), kita melihat dua spektrum yang akan memiliki beberapa puncak puncak mereka
ditugaskan untuk sampah yang berbeda menggunakan lebar bin yang sama seperti pada Gambar 2
(a).

2. Perataan puncak
Dalam kromatografi dan NMR, dan untuk MS yang lebih kecil, puncak dapat digeser (misalnya,
karena variasi instrumen atau interferen dalam analisis). Ini berarti waktu elusi, waktu retensi, ppm
atau ukuran lain tidak secara unik ditentukan untuk setiap metabolit di seluruh instrumen,
eksperimen, atau bahkan sampel dalam eksperimen. Pergeseran semacam itu perlu dikoreksi
sebelum analisis statistik, sehingga setiap metabolit muncul di tempat yang diharapkan.

Gambar. 2 (b) menunjukkan bagian dari dua spektrum NMR yang membutuhkan penyelarasan.
Bentuk paling sederhana dari penyelarasan puncak adalah membagi spektrum ke tangan ke
sejumlah jendela lokal di mana puncak digeser untuk dicocokkan di seluruh spektrum. Ini cepat,
karena semuanya dilakukan secara lokal, tetapi dapat menyebabkan misalignment ketika puncak
jatuh ke jendela lokal yang salah atau terpecah menjadi dua jendela, sama seperti ketika binning.

Salah satu prosedur peak-alignment yang lebih kuat yang awalnya dibuat untuk data kromatografi
disebut korelasi dioptimalkan warping (COW) [5]. Ini menggunakan dua parameter - bagian panjang
dan fleksibilitas - untuk mengontrol bagaimana spektrum dapat melengkung ke arah spektrum
referensi. Panjang bagian digunakan untuk membagi spektrum menjadi beberapa bagian yang dapat
direntangkan dan dikompres sebanyak yang dimungkinkan oleh parameter fleksibilitas dengan
menggerakkan titik akhir dari bagian. Ini berarti jendela lokal yang kaku dihindari, dan tidak ada
puncak tunggal yang dipindahkan secara independen dari lingkungan mereka masing-masing. Karena
kriteria optimalitas didasarkan pada korelasi, COW tidak bergantung pada koreksi awal sebelum
digunakan. COW telah menunjukkan potensi besar pada beberapa jenis data, tetapi, sebagaimana
ditunjukkan oleh Tomasi et al. [6], harus ditangani dengan sangat hati-hati dan diterapkan dengan
pengaturan yang kaku untuk menghindari misalignment. Metode yang lebih baru dan lebih cepat
yang menggunakan transformasi Fourier cepat adalah prosedur percepatan aliran udara [7].

3. Koreksi dasar

Data mentah dari GC-MS, LCMS dan pengukuran instrumen lainnya sering memiliki penambahan
linear atau non-linier yang tidak diinginkan sepanjang spektrum. Peningkatan ini dapat berasal dari
berbagai sumber (misalnya, kolom luka/berdarah dalam kromatografi, non-linearitas dalam
detektor, akumulasi senyawa yang kurang melimpah, dan sumber instrumental atau sampel spesifik
lainnya). Sebagian besar teknik analisis statistik tidak dapat membedakan antara garis pangkal dan
sinyal, sehingga mereka akan terpengaruh oleh distorsi tersebut. Peningkatan baseline juga
mempengaruhi kuantifikasi metabolit ketika nilai true-zero digeser ke atas sehingga volume puncak
meningkat. Sinyal peluruhan induksi bebas NMR adalah koreksi awal melalui koreksi fase dan teknik
lainnya, tetapi perbaikan lebih lanjut dalam prediksi dari spektrum frekuensidomain kadang-kadang
dapat dicapai melalui koreksi garis dasar seperti yang dijelaskan di sini.

Ada sejumlah besar metode koreksi garis dasar yang tersedia, tetapi yang paling populer sejauh ini
adalah keluarga baseline polinomial-fitting (misalnya, Lieber dan Mahadevan-Jansen? Iterative
polynomial fitting) [8]. Namun, membatasi bentuk baseline menjadi polinomial tidak selalu
merupakan pilihan terbaik. Metode lain {misalnya, asymmetric least squares (ALS) [9] dan estimasi
baseline yang kuat (RBE) [10]} menggunakan batasan lain pada bentuk baseline yang sering lebih
masuk akal. ALS cocok dengan kurva regresi di bawah spektrum, memboboti residual positif dan
menggunakan batasan turunan-kedua untuk mengontrol kekakuan baseline, seperti yang
ditunjukkan pada Gambar. 3 (a). Ini cukup intuitif dan sering menghasilkan perkiraan yang lebih kuat
dari baseline tanpa artefak aneh di ujung spektrum, yang kadang-kadang terjadi dengan polinomial.
Prosedur untuk memilih algoritma baseline dan parameter mereka secara obyektif dijelaskan dalam
Liland et al. [11]
4. Normalisasi.

Sampel yang mengandung metabolit dapat memiliki berbagai konsentrasi senyawa yang dianalisis
dari subjek ke subjek. Spektrum dari MS juga dapat bervariasi dalam intensitas karena berbagai
jumlah metabolit mencapai detektor. Jenis variasi ini lebih atau kurang global di seluruh spektrum,
yang berarti bahwa skala umum dari semua variabel berdasarkan beberapa ukuran umum akan
membuat sampel sebanding meskipun variasi intensitas dalam spektrum mentah. Beberapa langkah
yang lebih umum digunakan untuk normalisasi adalah mean, median, total deviasi standar, total
area di bawah kurva [Gambar. 3 (b)] dan panjang spektrum vektor. Tergantung pada aplikasi dan
variasi yang diketahui antara sampel, pilihan normalisasi akan berbeda. Median kadang-kadang bisa
lebih kuat daripada rata-rata ketika jumlah puncak bervariasi banyak dari sampel ke sampel, dan luas
total di bawah kurva biasanya hanya p kali mean, di mana p adalah jumlah variabel.

Jika standar stabil telah ditambahkan ke sampel [misalnya, trimethylsilyl propionate (TSP) atau
tetramethylsilane (TMS) dalam NMR atau senyawa lain yang diketahui konsentrasi atau ketinggian
puncak], ini dapat menjadi pilihan yang baik untuk menormalkan berkenaan dengan, jika Konsentrasi
absolut dalam setiap sampel adalah yang paling menarik. Menggunakan standar berarti ukuran
normalisasi tidak dipengaruhi oleh jumlah puncak atau fenomena campur lainnya, sehingga
kuantifikasi metabolit dalam sampel yang berbeda mungkin lebih tepat.

5. Scaling.

Bisnis yang jauh lebih berisiko daripada normalisasi adalah penskalaan variabel individual. Dalam
sampel di mana variabel diukur pada skala yang berbeda (misalnya, meter dan gram), penskalaan
dengan standar deviasi biasanya dilakukan secara default untuk membuat variabel agak sebanding.
Penskalaan spektrum biasanya memiliki motif lain (misalnya, mengurangi pengaruh variabel yang
sangat tidak konsisten). Kebisingan meningkat dengan intensitas di sebagian besar jenis spektrum
[mis., Dalam waktu-of-flight (TOF) MS di mana jumlah ion dapat dilihat sebagai proses Poisson
memberikan peningkatan linear dalam perbedaan dengan intensitas]. Dengan menurunkan variabel
dengan variasi tinggi, kami sering menurunkan skala dan memperbesar baseline. Efek ini bahkan
lebih buruk jika ada perbedaan besar antar sampel, sehingga puncak yang memegang informasi
paling banyak tentang perbedaan sampel semakin diperkecil.

Beberapa sumber termasuk mean centering sebagai teknik skala, karena dilakukan per variabel di
seluruh sampel. Namun, sebaliknya, ini biasanya dilakukan kemudian secara eksplisit atau implisit
dalam analisis statistik. Berarti centering adalah teknik yang lebih stabil daripada scaling (misalnya,
dengan standar deviasi) yang menekankan perbedaan antara sampel (misalnya, konsentrasi
metabolit yang berbeda). Penting untuk diingat bahwa mean centering yang dilakukan pada set data
kalibrasi dalam analisis statistik harus disimpan dan digunakan kembali pada data masa depan yang
harus diprediksi atau dibandingkan dengan model berdasarkan data kalibrasi.

Transformasi data juga dapat dimasukkan ke dalam kelompok skala. Sifat Poisson TOF-MS berarti
transformasi akar kuadrat sering digunakan [seperti pada Gambar. 4 (a)], menghasilkan interpretasi
ulang spektra dari massto-charge ke time-of-flight dikalikan konstanta umum [ 12]:

xi  ti  k 

Jika metabolit hadir dalam konsentrasi yang sangat berbeda, seseorang mungkin perlu melakukan
transformasi (misalnya, akar keempat atau logaritma) untuk mengurangi kemungkinan memiliki
analisis statistik yang berfokus hanya pada metabolit konsentrasi yang lebih tinggi. Kelemahan dari
semua transformasi yang disebutkan adalah bahwa mereka juga mengembang kebisingan,
setidaknya jika dilakukan langsung pada spektrum tanpa deteksi puncak sebelumnya, memberikan
lebih banyak tantangan untuk analisis statistik.

6. Smoothing.

Jika rasio signal-to-noise tinggi atau metode analisis berikutnya sangat sensitif terhadap kebisingan,
perataan spektrum dapat membantu, baik untuk interpretasi visual dan kekokohan analisis. Sekali
lagi, ada banyak cara untuk menghaluskan {mis., Dengan menerapkan median lokal, kurva pas
dengan batasan turunan kedua [lihat Gbr. 4 (b)], menerapkan pencekam dengan pembobotan lokal
atau menggunakan wavelet}. Triknya adalah cukup halus untuk mengurangi kebisingan sambil
mempertahankan sebanyak mungkin puncak, terutama yang kecil. Untuk memperkirakan jumlah
perataan yang dibutuhkan, seseorang dapat, misalnya, menghitung deviasi standar di area spektrum
yang tidak mengandung puncak atau menggunakan semacam perbandingan antara spektrum yang
dihaluskan dan asli untuk memeriksa apakah terlalu banyak atau terlalu sedikit telah dihapus.
Sebuah keluarga dari wavelet diskrit undecimated berubah dengan filter Daubechies [13]
(ditemukan di Alat Wavelet Beras untuk MATLAB) memungkinkan smoothing yang cukup berat
sementara biasanya menangkap tinggi penuh dan volume penuh dari puncak. Juga, merapikan
dengan menggunakan fungsi pembobotan dapat membantu dalam menerapkan jumlah perataan
yang benar ke berbagai bagian spektrum.

Urutan eksekusi.

Seperti yang disebutkan sebelumnya, urutan langkah pra-pemrosesan tidak selalu jelas.
Transformasi akar kuadrat harus benar-benar dilakukan pada data mentah untuk asumsi Poisson
untuk ditahan, dan oleh karena itu sebelum koreksi dasar dan normalisasi. Namun, efek yang
diinginkan dari transformasi log mungkin paling baik dicapai jika dilakukan setelah normalisasi dan
koreksi awal. Jika penghalusan diinginkan, ini mungkin sebaiknya dilakukan sebelum transformasi
log, sehingga kebisingan dihaluskan sebanyak mungkin sebelum dipompa. Mungkin juga berguna
untuk melakukan smoothing sebelum koreksi awal untuk memastikan bahwa nilai nol benar-benar
mendekati nol mungkin.

Semakin awal proses, proses binning dilakukan, semakin sedikit memori dan waktu yang digunakan
data dalam operasi berikut. Namun, seperti yang disebutkan, Binning dapat membahayakan
perataan puncak, jadi mungkin lebih baik untuk melakukan penyelarasan sebelum binning. Jika
intensitas spektrum sangat berbeda, koreksi garis dasar mungkin terpengaruh, yang berarti bahwa
algoritma baseline dapat mengambil manfaat dari normalisasi sebelumnya. Tetapi tindakan
mengurangkan garis dasar mengubah normalisasi spektrum, karena luas total di bawah kurva
dikurangi bersama dengan mean dan median. Jika normalisasi tidak dilakukan berkaitan dengan
standar internal, ini membantu normalisasi setelah koreksi awal. Urutan yang mungkin
menggunakan teknik pra-pemrosesan pada waktu-of-flight (TOF) MS spektrum diberikan dalam
Algoritma 1:

Algoritma 1

Urutan hipotetis pra-pemrosesan / pra-perawatan spektrum TOF-MS dengan pergeseran


kromatografi, resolusi yang lebih tinggi dari yang dibutuhkan dan metabolit dengan konsentrasi yang
berbeda dengan beberapa kali lipat.

1. Transformasi dengan akar kuadrat


2. Perataan Puncak dengan icoshift
3. Binning
4. Normalisasi menurut pembagian rata-rata
5. Menghaluskan dengan wavelet
6. Koreksi dasar dengan bolak kuadrat terkecil
7. Normalisasi dengan pembagian rata-rata
8. Transformasi oleh logaritma natural

Anda mungkin juga menyukai