Anda di halaman 1dari 3

Datamining dalam Bioinformatika : menggali informasi terpendam dalam lautan data biologi

Anto Satriyo Nugroho (BPPT) Ketika sedang mengerjakan eksperimen untuk disertasi doktoral, tiba-tiba saya dipanggil oleh professor. Rupanya ada permintaan kolaborasi penelitian dari satu lembaga penelitian genetic medicine di Jepang, untuk menganalisa data microarray dari pasien kanker. Saya diminta untuk menganalisa data yang mereka kumpulkan dari sekitar 100 orang pasien penderita penyakit kanker. Saat itu saya belum ada gambaran sama sekali, jenis data apa yang akan saya olah. Penelitian saya selama ini hanya memakai data citra, tulisan tangan dan data meteorologi saja. Berbagai terminologi dalam biologi molekuler, seperti transcriptome analysis, mRNA, gene expression sangat asing bagi saya. Dari situlah awal perkenalan saya dengan satu bidang baru yang sedang berkembang dengan pesat, yaitu bioinformatika. Membicarakan bioinformatika, tak dapat lepas dari proses lahirnya bidang tersebut. Sebagaimana diketahui, bioteknologi dan teknologi informasi merupakan dua di antara berbagai teknologi penting yang mengalami perkembangan signifikan dalam beberapa tahun terakhir ini. Bioteknologi berakar dari bidang biologi, sedangkan perkembangan teknologi informasi tak dapat dilepaskan dari matematika. Umumnya biologi dan matematika dianggap sebagai dua bidang yang sangat berbeda, dan sulit untuk dipadukan. Tetapi perkembangan ilmu pengetahuan terkini justru menunjukkan sebaliknya. Perpaduan antara biologi dan matematika, menghasilkan embrio suatu cabang pengetahuan baru yang memiliki masa depan yang menjanjikan di abad 21 ini. Embrio itulah yang bernama bioinformatika. Bioinformatika merupakan perpaduan harmonis antara teknologi informasi dan bioteknologi, yang dilatarbelakangi oleh ledakan data (data explosion) observasi biologi sebagai hasil yang dicapai dari kemajuan bioteknologi. Contohnya adalah pertumbuhan pesat database DNA pada GenBank. Genbank adalah database utama dalam biologi molekuler, yang dikelola oleh NCBI (National Center for Biotechnology Information) di AS. Data sekuens DNA yang dikoleksi di situs tersebut berasal dari kontribusi para peneliti biologi molekuler di seluruh dunia. Data yang tersimpan di genbank berkembang sangat cepat sebagaimana ditunjukkan pada Gambar 1. Grafik di atas menunjukkan pesatnya pertumbuhan data yang pada situs Genbank. Kalau dilihat pertumbuhan data nukleotida per 10 tahun, maka banyaknya nukleotida yang disimpan pada tahun 1992, sekitar 150 kali lipat daripada data 1982, sedangkan data tahun 2002 hampir 300 kali lipat dari data 1992. Pertumbuhan ini terus akan berlangsung, dan semakin lama semakin besar. Data yang melimpah ini tidak akan ada artinya, bila tidak ada metode komputasi efektif yang mampu mengolah data berskala besar, dan menggali informasi terpendam di dalamnya. Upaya untuk mengekstrak informasi dari data biologi ini tentu saja telah berkembang sejak puluhan tahun yang lalu. Berbagai pendekatan telah dilakukan, termasuk di dalamnya pemanfaatan metoda statistik. Kalau data tersebut berskala kecil, tentunya analisa dapat dilakukan dengan manual atau dengan metoda statistik konvensional yang sederhana. Namun demikian, dengan semakin meluapnya informasi yang harus segera diolah, kebutuhan akan metode yang mampu menangani problem dengan skala besar semakin dirasakan. Di sinilah teknologi informasi berperan penting. Datamining merupakan solusi yang ditawarkan untuk mengolah ledakan informasi dalam bioinformatika. Datamining merupakan teknik untuk mengekstrak informasi dari data berskala besar. Informasi tersebut merupakan nilai tambah yang sebelumnya tidak dapat diketahui secara manual. Di sebuah supermarket, misalnya, datamining dapat dipakai untuk mengetahui kecenderungan perilaku konsumen. Analisa transaksi selama seminggu, misalnya, menunjukkan bahwa orang yang membeli roti tawar, membeli juga selai dan mentega. Informasi ini merupakan nilai tambah yang sebelumnya tidak diketahui, dan dapat dipakai untuk menyusun strategi meningkatkan profit. Misalnya saja dengan mengatur agar roti tawar, mentega dan selai ditempatkan berdekatan, atau menjual roti tawar dan selai dalam satu paket. Contoh aplikasi datamining yang lain, misalnya untuk mengetahui kecenderungan perilaku konsumen pada online shop seperti amazon, sehingga dapat diterapkan perlakuan khusus bagi tiap konsumen. Metodemetode dalam datamining meliputi antara lain aturan asosiasi (association rule), yaitu menemukan aturan-aturan dan keterkaitan satu dengan yang lain. Selain itu terdapat pula clustering, yaitu

mengelompokkan data ke dalam grup-grup berdasarkan kemiripannya, klasifikasi, dsb. Besarnya perhatian pada datamining ini terlihat dari banyaknya paper yang dipublikasikan di journal maupun konferens. Misalnya pada konferensi internasional ACM SIGMOD (Association for computing machinery, Special Interest Group on Management of Data) tahun 1998, sebanyak 25ari paper yang diterima, membahas upaya bagaimana mengekstrak informasi dari data, termasuk di dalamnya datamining dan warehousing. Dalam bioinformatika, datamining dimanfaatkan untuk menganalisa data hasil observasi biologi seperti misalnya sekuens DNA, deretan asam amino, ekspresi gen, agar menjadi informasi yang bermakna. Dengan demikian, diharapkan berbagai masalah kompleks dalam biologi dapat diselesaikan. Misalnya bagaimana kaitan antara fungsi suatu protein dengan strukturnya, korelasi antara penyakit dan profil ekspresi gen seorang pasien, bagaimana mekanisme timbulnya suatu penyakit. Informasi yang diperoleh dari analisa bioinformatika ini bermanfaat bagi kedokteran modern untuk menyusun strategi terapi medis khusus yang efektif dengan menyesuaikan kondisi genetik si pasien, yang disebut tailor made medicine. Dengan tailor made medicine, diharapkan efek samping dapat dihindarkan dan pengobatan berjalan optimal. Salah satu topik penelitian yang hangat dibicarakan dalam bioinformatika adalah analisa ekspresi/aktifasi gen. Gen adalah bagian DNA yang bertugas untuk menentukan kapan, dimana, seberapa banyak suatu protein diproduksi. Kelainan yang terjadi pada gen, akan menyebabkan ketidaknormalan pada fungsi protein, dan pada gilirannya berkaitan erat dengan mekanisme timbulnya penyakit pada seseorang. Karena itu analisa ekspresi gen ini merupakan informasi penting untuk mengetahui mekanisme timbulnya suatu penyakit, dan mendesain terapi medis yang tepat bagi seorang pasien. Dari perkembangan terakhir, diketahui bahwa banyaknya gen yang terdapat pada sel manusia berkisar 32 ribu. Kalau di masa lalu, pengamatan ekspresi gen dilakukan pada skala kecil, dewasa ini dengan adanya piranti DNA chip dan microarray, memungkinkan kita mengamati pola ribuan ekspresi gen sekaligus. Hal ini memberikan tantangan baru bagi dunia komputasi, karena informasi ekspresi gen tersebut menghasilkan ruang vektor berdimensi sangat tinggi. Di antara berbagai metode yang diaplikasikan untuk menganalisa informasi berdimensi tinggi pada ekspresi gen, salah satu yang mendapat perhatian dari peneliti adalah Support Vector Machine (SVM). SVM dikembangkan oleh seorang Vladimir Vapnik, seorang ilmuwan Rusia yang saat ini menjabat sebagai Professor Statistik di University of London. Dalam berbagai penelitian, SVM memberikan solusi yang lebih baik daripada metode konvensional pengenalan pola, seperti Artificial Neural Network (ANN). Berita terbaru mengenai riset dan temuan dalam bioinformatika dapat diikuti dari berbagai laporan penelitian pada journal ilmiah, mulai dari yang sifatnya umum seperti Nature, Science, hingga yang dikhususkan untuk bidang bioinformatika, seperti Bioinformatics yang diterbitkan oleh Oxford University Press (http://bioinformatics.oxfordjournals.org/archive/). Organisasi profesi elektronika dan informatika terbesar : IEEE dan ACM, sejak tahun 2004 juga menerbitkan IEEE/ACM Transactions on Computational Biology and Bioinformatics, yang mewadahi laporan perkembangan terkini dalam bioinformatika. Bioinformatika juga telah diterima oleh komunitas computer science, sehingga dalam berbagai konferensi internasional yang berkaitan dengan computer science, seperti International Joint Conference on Neural Networks (IJCNN), terdapat sessi khusus mengenai aplikasi komputasi dalam bioinformatika. Daya tarik berbagai masalah dalam bioinformatika ini menyebabkan diangkatnya masalah tersebut sebagai tema kompetisi datamining KDDCUP yang diselenggarakan oleh ACM SIGKDD (ACM Special Interest Group on Knowledge Discovery and Datamining). Informasi lengkap mengenai kompetisi yang berlangsung tiap tahun ini dapat dilihat dari http://www.acm.org/sigs/sigkdd/kddcup/. KDD Cup berlangsung tiap tahun sejak 1997, dimana tiga kali diantaranya mengambil masalah dari bidang bioinformatika. Pada tahun 2001, tema yang diangkat berkaitan dengan bioinformatics & drug discovery, yaitu prediksi bioaktifitas molekul untuk pengembangan obat (drug design), prediksi fungsi gen/protein dan homologi protein. Kompetisi ini diikuti oleh ratusan tim peneliti dari seluruh dunia. Hasil

survey yang dilakukan pada peserta kompetisi memberikan informasi menarik. Pertama-tama diketahui bahwa metode yang dikembangkan oleh masing-masing peserta memiliki kemiripan, diantaranya feature selection, decision tree, k-nearest neighbour, boosting dan SVM. Hasil ini menunjukkan bahwa metodemetode tersebut memiliki potensi tinggi untuk mencapai hasil yang akurat. Dari survey itu juga diketahui bahwa kebanyakan peserta memakai customized software, yaitu program yang dibuat sendiri, bukan software komersial. Software komersial sering memiliki keterbatasan yang menyulitkan, jika eksperimen yang dilakukan tidak sesuai dengan spesifikasi software itu. Seperti yang terjadi pada kompetisi di atas, dimana dimensi vektor yang dianalisa pada salah satu soal berkisar 140 ribu. Data dengan karakteristik demikian tidak dapat diolah dengan software komersial yang tersedia, walaupun komputer yang dipakai memiliki 1G RAM. Hal ini menunjukkan pentingnya penguasaan kemampuan pemrograman, dan tidak sekadar mengandalkan software komersial yang ada, jika seseorang ingin terjun dalam penelitian datamining. Di Indonesia, penelitian datamining dan bioinformatika telah mulai dilakukan di berbagai lembaga penelitian seperti Lembaga Biologi Molekuler Eijkman, BPPT, LIPI maupun kalangan akademisi di berbagai perguruan tinggi. Diskusi bioinformatika dapat diikuti di mailing list HBI (Himpunan Bioinformatika Indonesia) yang beralamatkan ilmukomputer-bioinformatika@yahoogroups.com. Sedangkan komunitas datamining Indonesia memiliki mailing list di indo-dm@yahoogroups.com. Seminar dan workshop bioinformatika telah diselenggarakan beberapa kali, di LIPI, IPB dan universitas yang lain. Peserta yang hadir berasal dari latar belakang beragam, baik biologi maupun komputasi. Dalam berbagai kesempatan menghadiri seminar, maupun diskusi di mailing list, penulis melihat tingginya gairah mahasiswa maupun peneliti Indonesia di bidang bioinformatika dan datamining. Keberadaan database yang mudah diakses dari Indonesia saat ini tengah dirintis oleh tim dalam proyek Mirror Servers for Scientific Data (http://www.arsip.lipi.go.id). Hal-hal ini merupakan signal positif. Diharapkan komunitas ini kelak berkembang pesat dan dapat berkiprah memberikan kontribusinya bagi kemajuan iptek di tanah air.

Anda mungkin juga menyukai