Anda di halaman 1dari 18

Tien Kumalasari

G651100211

Resume Tugas Manajemen Pengetahuan MANAJEMEN PENGETAHUAN, DATA MINING, DAN TEXT MINING DALAM INFORMATIKA MEDIS Hsinchun Chen, Sherrilynne S. Fuller, Carol Friedman, dan William Hersh

1. Pendahuluan Paper ini secara umum membahas teknik-teknik data knowledge mining

management

(manajemen

pengetahuan),

(penambangan data), dan text mining (penambangan teks) pilihan dan penggunaannya dalam berbagai aplikasi biomedis yang ada. terdapat lima paradigma utama dalam pembelajaran mesin dan analisis data yaitu : 1. model-model probabilistik dan statistik 2. pembelajaran simbol dan induksi rule 3. jaringan saraf tiruan 4. Algoritma berbasis evolusi 5. pembelajaran analitis serta logika fuzzy. Relevansi dan potensinya untuk penelitian biomedis. Contoh penelitian manajemen pengetahuan, data mining, dan text mining yang relevan, mencakup: ontologi; manajemen pengetahuan untuk perawatan kesehatan, literatur biomedis, basis data heterogen, visualisasi informasi, basis data multimedia, data text mining untuk perawatan, literatur kesehatan, dan data biologis. Para peneliti dan praktisi biomedis sekarang menghadapi masalah (informasi yang berlimpah dan belum terorganisir). Teknik komputasi dan teknologi informasi baru dibutuhkan untuk memanaj repositori besar data biomedis ini dan untuk melakukan discover pola dan pengetahuan yang bermanfaat darinya Data ini harus diorganisir dan dianalisis secara efektif agar bermanfaat. berbagai aplikasi biomedis yang sukses di tahun baru-baru ini. Teknik dan metodologi knowledge management telah digunakan untuk mendukung storing (penyimpanan), retrieving
Halaman 1

Tien Kumalasari

G651100211

(penemuan

kembali),

sharing

(berbagi),

dan

manajemen

multimedia serta pengetahuan biomedis eksplisit dan tacit yang bermisi penting. Teknik data mining telah digunakan untuk melakukan discover (penemuan) pengetahuan biologis, drug discovery, dan perawatan pasien serta pola yang menggunakan metode analisis statistik, pembelajaran mesin (macine learning), dan jaringan saraf tiruan pilihan. Teknik text mining telah digunakan untuk menganalisis publikasi penelitian seperti data pasien elektronik. Entitas-entitas biomedis seperti nama-nama obat, protein, gen, dan penyakit dapat diekstrak secara otomatis dari dokumen-dokumen yang sudah

dipublikasikan dan digunakan untuk mengkonstruksi gen pathway atau menyediakan pemetaan ke dalam ontologi medis yang ada. Pada paper knowledge management, data mining, dan text mining ini akan dibahas dengan menggunakan teknik-teknik dalam aplikasi-aplikasi biomedis . 2. Knowledge Management, Data mining, dan Text mining Berikut sedikit gambaran umum tentang teknik-teknik

knowledge management, data mining, dan text mining telah banyak digunakan di berbagai aplikasi penting dalam domain bisnis dan ilmiah. Manajemen pengetahuan adalah pendekatan sistem dan manajerial untuk pengumpulan, manajemen, penggunaan, analisis, berbagi, dan knowledge discovery dalam organisasi atau komunitas untuk memaksimalkan performa (Chen, 2001). Walaupun definisi universal apa pengetahuan itu, pada umumnya sepakat adanya kesatuan data, informasi, dan pengetahuan. Data mining sering digunakan selama proses knowledge discovery dan merupakan salah satu dari sub bidang yang sangat
Halaman 2

Tien Kumalasari

G651100211

penting dalam manajemen pengetahuan. Data mining bertujuan untuk menganalisis sekelompok data atau informasi yang ada untuk mengidentifikasi pola-pola baru dan sangat bermanfaat. (Fayyad, dkk., 1996). Teknik-teknik ini, seperti Bayesian model, pohon keputusan, jaringan saraf tiruan, associate rule mining, dan algoritma genetika. Data mining telah digunakan dalam banyak aplikasi seperti pemasaran, manajemen relasi pelanggan, engineering, obat, analisis kesalahan, prediksi pakar, web mining, dan mobile computing, dan sebagainya. Text mining bertujuan untuk mengekstrak pengetahuan yang berguna dari data atau dokumen tekstual (Hearst, 1999; Chen, 2001). Walaupun text mining sering dianggap sebagai sub bidang dari data mining, banyak teknik text mining berasal dari disiplindisiplin lain, seperti information retrieval, visualisasi informasi, komputasional, dan ilmu informasi. Contoh aplikasi text mining mencakup klasifikasi dokumen, clustering dokumen, ekstraksi entitas, ekstraksi informasi, dan sumarisasi. 2.1 Paradigma Pembelajaran Mesin dan Analisis Data Banyak pengetahuan berbasis manajemen pengetahuan

telah dibangun untuk berbagai aplikasi seperti diagnosis medis, engineering troubleshooting, dan sebagian besar sistem ini telah didesain untuk memperoleh pengetahuan secara manual dari para pakar (manusia), yang bisa membutuhkan sangat banyak waktu dan proses yang panjang. Untuk mengatasi masalah ini, algoritmaalgoritma pembelajaran mesin telah dikembangkan untuk memperoleh pengetahuan secara otomatis dari contoh-contoh atau sumber data. Simon (1983) mendefinisikan pembelajaran mesin sebagai semua proses yang sistemnya memperbaiki performa sendiri. Mitchell (1997) memberikan mesin
Halaman 3

definisi

serupa,

yang

menganggap

pembelajaran

menjadi

studi

algoritma

komputer yang meningkat kualitasnya secara otomatis melalui

Tien Kumalasari

G651100211

pengalaman. Walaupun istilah pembelajaran mesin telah banyak diadopsi dalam komunitas ilmu komputer, dalam konteks informatika medis, analisis data lebih umum digunakan untuk merepresentasikan studi algoritma komputer yang meningkat kualitasnya secara otomatis melalui analisis data. Analisis data statistik telah lama diadopsi dalam penelitian biomedis. Berikut review penelitian di masing-masing bidang ini dan membahas aplikabilitasnya dalam biomedicine. 2.1.1 Model-Model Probabilistik dan Statistik Salah satu model probabilistik yang lebih maju dan populer dalam biomedis adalah Bayesian model, metode ini sering digunakan untuk mengklasifikasikan objek yang berbeda ke dalam kelas-kelas yang sudah dikenal (predefined classes) berdasarkan sekelompok fitur. Bayesian model menyimpan probabilitas tiap kelas, probabilitas tiap fitur, dan probabilitas tiap fitur yang ada di masing-masing kelas, berdasarkan training data. Ketika hal baru ditemukan, ia dapat diklasifikasikan menurut probabilitasprobabilitas ini (Langley, dkk., 1992). Teknik pembelajaran mesin yang mengalami peningkatan pengenalan dan popularitas pada tahun-tahun ini adalah support vector machines (SVMs). SVM berbasis teori pembelajaran statistik yang mencoba untuk menemukan hyperplane untuk memisahkan dua atau multiple kelas yang terbaik (Vapnik, 1998). Model pembelajaran statistik ini telah diaplikasikan dalam aplikasi yang berbeda dan hasil sudah memberikan harapan. Contohnya, tampak bahwa SVM telah mencapai performa terbaik di antara beberapa metode pembelajaran dalam klasifikasi dokumen (Joachims, 1998; Yang dan Liu, 1999). SVM juga sesuai untuk berbagai masalah klasifikasi biomedis, seperti disease state classification berbasis

Halaman 4

Tien Kumalasari

G651100211

variabel-variabel genetik atau diagnosis medis berbasis indikatorindikator pasien. 2.1.2 Pembelajaran Simbolis dan Induksi Rule Pembelajaran simbolis (symbolic learning) dapat

diklasifikasikan menurut strategi pembelajaran dasar seperti rote learning (belajar dengan menghapal), learning by being told (belajar dengan mendengar), learning by analogy (belajar dengan analogi), learning from examples (belajar dengan contoh), dan learning from discovery(belajar dengan menemukan) (Cohen dan Feigenbaum, 1982; Carbonell, dkk., 1983). Di antaranya, learning from examples muncul menjadi pendekatan pembelajaran simbolis yang sangat menjanjikan untuk knowledge discovery dan data mining. Ia diimplementasikan dengan mengaplikasikan algoritma yang berusaha mendukung deskripsi konsep umum yang terbaik untuk mendeskripsikan kelas-kelas contoh training yang berbeda. Walaupun tidak sehebat SVM atau jaringan saraf (istilahnya akurasi klasifikasi), teknik-teknik pembelajaran simbolis itu efisien secara komputasional dan hasilnya mudah diinterpretasikan. Untuk banyak aplikasi biomedis, kemampuan untuk menginterpretasikan hasil-hasil data mining dalam cara yang dapat dipahami pasien, dokter, dan ahli biologi itu tidak terhingga nilainya. 2.1.3 Jaringan Saraf Jaringan saraf tiruan berusaha untuk mencapai performa seperti manusia dengan memodelkan sistem emosi manusia. Jaringan saraf merupakan graf banyak node aktif (neuron) yang saling terkoneksi dengan link berbobot besar (synapses). Ketika pengetahuan direpresentasikan dengan deskripsi simbolis misalnya pohon keputusan dan rule produksi dalam pembelajaran simbolis, pengetahuah dipelajari dan diingat dengan jaringan saraf yang

Halaman 5

Tien Kumalasari

G651100211

saling terkoneksi, wighted synapses, dan unit-unit logika threshold (Rumelhart, dkk., 1986a; Lippmann, 1987). Banyak jenis jaringan saraf yang berbeda telah

dikembangkan, di antaranya feedforward/backpropagation model sangat sering digunakan. Jaringan backpropagation secara penuh terkoneksi, layer, feed-forward networks di mana aktivasi mengalir dari input layer melalui hidden layer kemudian ke output layer (Rumelhart, dkk., 1986b). 2.1.4 Algoritma Berbasis Evolusi Algoritma berbasis evolusi mengandalkan analogi-analogi untuk proses-proses alami dan Darwinian survival of the fittest. Fogel (1994) mengidentifikasi tiga kategori algoritma berbasis evolusi: algoritma genetik, strategi evolusi, dan pemrograman evolusioner. Di antaranya, algoritma genetik itu sangat populer dan telah sukses diaplikasikan untuk berbagai masalah optimisasi. Algoritma genetik telah dikembangkan berdasarkan prinsip genetika (Holland, 1975; Goldberg, 1989; Michalewicz, 1992). Dalam penelitian informatika medis, algoritma genetik di antara teknik-teknik yang sangat bagus untuk masalah seleksi fitur (contoh, mengidentifikasi subset gen. 2.1.5 Pembelajaran Analitis dan Logika Fuzzy Pembelajaran analitis merepresentasikan pengetahuan

sebagai rule logis dan melakukan reasoning pada rule-rule seperti itu untuk mencari pembuktian. Bukti dapat mengalami compile ke dalam rule-rule yang lebih kompleks untuk mengatasi masalahmasalah serupa dengan sejumlah pencarian lebih kecil yang dibutuhkan, sedangkan sistem pembelajaran analitis tradisional tergantung pada hard computing rules, biasanya tidak ada perbedaan yang jelas di antara nilai dan kelas dalam dunia nyata. Untuk mengatasi masalah ini, fuzzy system membolehkan nilai
Halaman 6

Tien Kumalasari

G651100211

False atau True untuk beroperasi di atas range bilangan riil dari 0 sampai 1 (Zedah, 1965). 2.1.6 Pendekatan Hybrid Sebagaimana Langley dan Simon (1995) telah tunjukkan, alasan-alasan untuk membedakan paradigma-paradigma itu lebih historis daripada ilmiah. Batasan di antara paradigma yang berbeda itu biasanya tidak jelas dan banyak sistem telah dibangun untuk mengkombinasikan pendekatan yang berbeda tersebut. Contohnya, logika fuzzy telah diaplikasikan ke induksi rule dan algoritma genetic. 2.2 Metodologi Evaluasi Akurasi sistem pembelajaran harus dievaluasi sebelum dapat dimanfaatkan. Ketersedian data yang terbatas sering membuat akurasi estimasi tugas yang sulit (Kohavi, 1995). Memilih metodologi evaluasi bagus itu sangat penting untuk perkembangan sistem pembelajaran mesin. Ada beberapa metode populer yang digunakan untuk

evaluasi seperti ini, termasuk holdout sampling, cross validation, leave-one-out, dan bootstrap sampling (Stone, 1974; Efron dan Tibshirani, 1993). Dalam metode holdout, data dibagi ke dalam training set dan testing set. Biasanya 2/3 data ditetapkan untuk training set dan 1/3 untuk testing set. Dalam cross-validation, data set secara acak dibagi ke dalam sejumlah subset ukuran yang secara kasar sama. Ten-fold cross validation, di mana data set dibagi ke dalam 10 subset, sangat umum digunakan. Sistem ini mengalami training dan testing untuk 10 iterasi. Di tiap iterasi, 9 subset data digunakan sebagai training data dan remaining set digunakan sebagai testing data. Dalam rotasi, tiap subset data berperan sebagai testing set hanya dalam
Halaman 7

Tien Kumalasari

G651100211

satu iterasi. Akurasi sistem merupakan akurasi rata-rata di atas 10 iterasi. Leave-one-out merupakan kasus ekstrim dari crossvalidation, di mana data aslinya dibagi (split) ke dalam n subset, di mana n merupakan ukuran data asli. Dalam metode bootstrap, n sampel acak independen diambil dari data set asli berukuran n. Karena sampel-sampel ini dilakukan dengan penggantian, maka sejumlah contoh unik akan lebih kecil dari n. Masing-masing akurasinya. Hold-out metode ini memiliki adalah keunggulan paling dan awal

kelemahan. Beberapa kajian telah membandingkan dalam masa sampling yang diimplementasikan, tapi masalah utamanya adalah bahwa training set dan testing set itu tidak independen. Metode ini juga tidak membuat efisien penggunaan data sejak 1/3 data tidak digunakan untuk melakukan training sistem (Kohavi, 1995). Leave-one-out menyediakan estimasi yang sangat tidak memihak, dan secara komputasional mahal serta estimasinya sangat berbeda, terutama untuk data set kecil (Efron, 1983; Jain, dkk., 1987). Konsekuensi pasien dan medis penting diasosiasikan dengan banyak aplikasi data mining biomedis dan validasi detil, kualitatif dari hasil data mining atau text mining harus dibangun dengan bantuan domain experts (contoh, dokter dan ahli biologi), sehingga ini pada umumnya membutuhkan banyak waktu dan proses yang membutuhkan anggaran mahal. 3. Apliksi Knowledge Management, Data Mining, Dan Text Mining Dalam Biomedis Teknik-teknik knowledge management, data mining, dan text mining telah diaplikasikan untuk bidang biomedicine yang berbeda, berkisar dari manajemen data pasien ke diagnosis klinis, dari pembuatan hipotesis ke gen clustering, dan dari deteksi sinyal ke
Halaman 8

Tien Kumalasari

G651100211

prediksi struktur protein. Pembahasan yang lebih singkat dan tentang teknik dan aplikasi knowledge management, data mining, dan text mining pilihan dalam biomedicine di bahas berikutnya . 3.1 Ontologi Ontologi adalah spesifikasi konseptualisasi. Ia

mendeskripsikan konsep-konsep dan relasi-relasi yang bisa eksis dan memformulasi terminologi dalam sebuah domain (Gruninger dan Lee, 2002). Ontologi sering digunakan untuk memfasilitasi berbagi pengetahuan antar manusia, pengolahan informasi, data mining, komunikasi antar software, atau aplikasi pengolahan pengetahuan lain. Banyak ontologi telah dikembangkan dalam bidang biomedis. tiga Unified sumber Medical Language System (UMLS) 2. menawarkan pengetahuan:1. Metathesaurus

Semantic Network 3. Specialist Lexicon. Metathesaurus merupakan multi bahasa yang dikontrol basis data kosakata untuk biomedicine yang membolehkan user untuk mempetakan nama-nama dan istilah-istilah tekstual biomedis menjadi berbagai konsep, atau mengidentifikasi sekumpulan istilah berbeda yang diasosiasikan dengan konsep tunggal. Semantic Network menetapkan kategorisasi konsep dalam Metathesaurus dan relasi antar konsep. Specialist Lexicon, didesain untuk memfasilitasi pengolahan bahasa alami untuk teks biomedis, merupakan kamus yang memuat definisi-definisi sintaksis untuk istilah-istilah biomedis dan istilahistilah bahasa Inggris umum. 3.2 Manajemen Pengetahuan Teknik-teknik kecerdasan buatan telah digunakan dalam manajemen pengetahuan dalam biomedicine di awal 1970, ketika program MYCIN telah dikembangkan untuk mendukung konsultasi dan pembuataan keputusan (Shortliffe, 1976). Di MYCIN, pengetahuan diperoleh dari para pakar telah direpresentasikan
Halaman 9

Tien Kumalasari

G651100211

sebagai sekumpulan rule produksi IF-THEN. Sistem jenis ini kemudian akan dikenal sebagai sistem pakar dan menjadi sangat populer di tahun 1980. Sistem pakar tergantung pada pengetahuan pakar yang dibangun ke dalamnya, yang telah menghabiskan waktu dan proses yang panjang. Performa MYCIN telah memberi harapan dan membantu para pakar (manusia) dalam berbagai kasus (Yu, dkk., 1979). MYCIN pada komputer yang dapat menghasilkan respon-respon cepat (Shortliffe, 1987). Karena itu, dengan performa yang baik dan cost lebih rendah dari komputer modern dan sistem berbasis pengetahuan medis, kami percaya terdapat kesempatan besar untuk mengadopsi sistem manajemen pengetahuan dan teknologi pilihan dalam konteks biomedis, terutama sekali, tidak seperti penggantian manusia (yakni, sistem pakar) tapi sebagai pembantu pembuatan keputusan biomedis. 3.2.1 Manajemen Pengetahuan dalam Perawatan Kesehatan Pada umumnya telah dikenal bahwa sistem manajemen data pasien sangat diinginkan dalam setting klinis (Heathfield dan Louw, 1999; Jackson, 2000; Abidi, 2001). Teknik-teknik text mining lain juga telah diaplikasikan pada manajemen pengetahuan untuk perawatan kesehatan . 3.2.2 Manajemen Pengetahuan untuk Literatur Biomedis Di samping informasi klinis, manajemen pengetahuan telah diaplikasikan untuk artikel-artikel literature biomedis dan laporanlaporan penelitian.seperti Sistem HelpfulMed memungkinkan user mencari dokumen-dokumen biomedis dari beberapa basis data yang mencakup MEDLINE, CancerLit, PDQ, dan basis data obat berbasis fakta (Chen, dkk., 2003). Basis data HelpFulMed mencakup halaman web yang terkait dengan perawatan kesehatan

Halaman 10

Tien Kumalasari

G651100211

berkualitas tinggi, Sistem ini juga menyediakan term-suggestion tool yang disebut Concept Mapper. MARVIN merupakan contoh sistem information retrieval medis yang telah mengaplikasikan teknik-teknik pembelajaran mesin pilihan (Baujard, dkk., 1998). Dibangun pada arsitektur multi agen, sistem itu memfilter web dokumen-dokumen dan mengikuti relevan dari untuk sekumpulan halaman link-link

menemukan kembali dokumen-dokumen baru. Teknik-teknik text mining lain juga telah digunakan untuk memfasilitasi Contohnya, manajemen teknik-teknik dan memahami literatur biomedis. dan pengolahan bahasa alami

pemfrasean kata benda telah diaplikasikan untuk mengekstrak frase kata benda dari dokumen-dokumen medis (Tolledan Chen, 2000). kebanyakan yang diuji pada entitas-entitas umum seperti nama orang, lokasi, organisasi, tanggal, waktu, ekspresi jumlah, dan alamat email (Chinchor, 1998), ekstraksi entitas bernama telah digunakan untuk mengekstraksi entitas-entitas biomedis spesifik seperti nama gen, nama protein, penyakit, dan gejala dengan hasil yang menjanjikan (Fukuda, dkk., 1998; Leroy, dkk., 2003). 3.2.3 Mengakes Basis Data Heterogen Data biomedis sekarang dihasilkan pada kecepatan yang jauh lebih cepat daripada para peneliti yang menggunakan metodemetode tradisional (National Research Council, 2000). Banyaknya data genomic dan biomedis telah menghasilkan potensi besar untuk penelitian dan aplikasi dalam biomedicine, para peneliti dihadapkan dengan tantangan integrasi informasi dari sumber data heterogen (Barrera, dkk., 2004). Program BLAST banyak digunakan untuk mencari basis data protein dan DNA untuk kesamaan sequensial (Altschul, dkk., 1997). Sistem MedBlast, memanfaatkan BLAST untuk menggunakan algoritma-algoritma otomatis untuk
Halaman 11

Tien Kumalasari

G651100211

mengidentifikasi konsep-konsep ekuivalen yang ada dalam basis data berbeda untuk mendukung information retrieval. 3.2.4 Visualiasi Informasi dan Akses Informasi Multimedia Visualisasi informasi (dan pengetahuan) untuk informasi biomedis itu penting untuk memahami dan berbagi pengetahuan. Teknik-teknik visualisasi peningkatan yang cepat dalam kecepatan komputer dan reduksi cost, visualisasi grafis mendukung tampilan informasi yang lebih bermanfaat dan mendukung pemahaman user. Maps, trees, dan network merupakan bagian dari representasi visualisasi informasi yang sangat populer. Bodenreider dan McCray (2003) mengaplikasikan teknik-teknik analisis radial diagram dan persesuaian untuk memvisualisasikan kelompok-kelompok semantik dalam jaringan semantik UMLS. Han dan Byun (2004) menggunakan tampilan tiga dimensi untuk memvisualisasikan jaringan interaksi protein. Realitas virtual juga telah diaplikasikan dalam jaringan metabolik (Rojdestvenski, 2003). Contoh yang sangat terkenal adalah NLMs Visible Human Project (Ackerman, 1991), yang memproduksi representasi tiga dimensi dari tubuh manusia laki-laki dan perempuan . Data itu menyediakan testbed yang baik untuk algoritma gambar medis dan pengolahan multimedia serta telah diaplikasikan untuk berbagai penggunaan diagnosis, edukasi, dan penelitian. Karena algoritma-algoritma pengolahan teks dapat

diaplikasikan untuk data multimedia secara langsung, teknik pengolahan gambar dan pengindeksan sering dibutuhkan untuk aplikasi-aplikasi biomedis pilihan. Teknik-teknik ini memungkinkan para user untuk memvisualisasikan, retrieve, dan memanaj data multimedia seperti gambar sinar-X dan CAT-scan secara lebih efektif dan efisien.

Halaman 12

Tien Kumalasari

G651100211

3.3 Data Mining dan Text Mining Teknik-teknik data mining telah sering digunakan untuk menemukan pola-pola dan pengetahuan baru dari data biomedis. Sedangkan Bayesian model telah banyak digunakan di hari-hari pertama, metode pembelajaran mesin yang lebih modern, seperti jaringan berbagai mencakup saraf tiruan dan support yang vector berbeda, dan machine, di telah diaplikasikan di tahun-tahun ini. Teknik-teknik ini digunakan dalam bidang biomedicine antaranya medis. genomics, proteomics, diagnosis

Selanjutnya, kami mereview sebagian aplikasi teknik data mining dan knowledge discovery utama dalam bidang ini. 3.3.1 Data Mining untuk Perawatan Kesehatan Teknik-teknik data mining telah banyak digunakan dalam aplikasi diagnostic dan perawatan kesehatan. Teknik-teknik klasifikasi juga diaplikasikan untuk menganalisis berbagai sinyal dan relasinya dengan penyakit-penyakit atau gejala tertentu. Data mining juga digunakan untuk mengekstraksi rule-rule dari data perawatan kesehatan. Contohnya, ia telah digunakan untuk mengekstraksi rule-rule diagnostik dari data kanker payudara (Kovalerchuck, dkk., 2001). Aturan yang telah dihasilkan itu mirip dengan yang dihasilkan secara manual dalam sistem pakar sehingga dapat dengan mudah divalidasi oleh domain experts.

3.3.2 Data Mining untuk Molecular Biology Rentetan teknologi baru dan cost komputasi yang rendah telah berhasil dalam sejumlah besar data biologis yang dapat diakses dengan mudah oleh para peneliti. Data mining sudah mulai memainkan peran penting dalam masalah ini. Clustering mungkin
Halaman 13

Tien Kumalasari

G651100211

sangat sering digunakan oleh teknik data mining untuk data biologis. Algoritma-algoritma data mining juga telah digunakan untuk prediksi dalam berbagai aplikasi biomedis yang mencakup prediksi protein backbone angle (Kuang, dkk., 2004), protein domain (Nagarajan dan Yona, 2004), efek-efek biologis (Krishnan dan Westhead, 2004), dan DNA binding (Ahmad, dkk., 2004). Metode prediktif ini sering berdasarkan pada algoritma-algoritma klasifikasi (supervised learning) seperti jaringan saraf tiruan atau mesin vektor pendukung. 3.3.3 Text Mining untuk Literatur dan Catatan Klinik Text mining telah sering digunakan untuk menganalisis literatur biomedis, dan sering mencakup dua langkah utama. Pertama, harus mengidentifikasi entitas-entitas biomedis dan konsep-konsep menarik dari teks bebas yang menggunakan teknikteknik pengolahan bahasa alami. Contohnya, jika kita ingin mempelajari relasi antar gen dan penyakit tumor otak, nama-nama entitas secara tepat diidentifikasi dari dokumen tekstual yang relevan. Text mining juga telah diaplikasikan untuk data pasien dan dokumen klinik lain untuk memfasilitasi manajemen pengetahuan. Ia mengadopsi proses yang mirip dengan text mining dari literatur. Chapman, dkk. (2004) menggunakan pendekatan text mining serupa untuk deteksi demam otomatis dari data klinik ke deteksi perjangkitan penyakit yang mungkin menular. 3.4 Etika dan Isu-Isu Legal untuk Data Mining Catatan medis dan data biologis yang dihasilkan dari subjek (manusia) memuat informasi pribadi dan rahasia. Data pasien dan subjek (manusia) harus ditangani dengan perhatian besar untuk

Halaman 14

Tien Kumalasari

G651100211

memproteksi privacy dan kerahasiaannya. Para peneliti tidak secara otomatis mendapatkan haknya untuk menggunakan data pasien atau subjek (orang yang memiliki data) untuk tujuan data mining jika mereka tidak memperoleh izin pasien atau subjek (Berman, 2002). Hasil data mining adalah relevansi terhadap kebutuhan pasien atau subjek untuk diinterpretasikan dalam konteks medis yang benar dan dengan bantuan profesional biomedis. Dalam data mining biomedis, dengan data pasien yang sangat kondisional tidak harus menjadi individually identifiable (dapat diidentifikasi secara individu), yakni, tidak ada catatan harus menyediakan data yang cukup untuk mengidentifikasi individu yang berhubungan dengan data itu. 4. Ringkasan Secara umum dibahas tentang teknik-teknik knowledge management, data mining, dan text mining serta penggunaannya dalam berbagai aplikasi biomedis yang ada. Telah banyak digunakan dalam aplikasi-aplikasi biomedis. Data medis sering sensitif dan mencakup informasi pribadi dan rahasia. Kerahasiaan dan privacy pasien tidak disetujui untuk dikenalkan terhadap penggunaan teknologi-teknologi knowledge management, data mining, dan text mining modern. Keberatan lainnya adalah bahwa penemuan yang dihasilkan dari teknik-teknik pembelajaran mesin pilihan harus diinterpretasikan dengan cermat. Pengetahuan dan pola yang ditemukan oleh komputer harus divalidasi secara eksperimen dan klinis agar masuk kategori teliti, seperti semua pengetahuan yang dihasilkan oleh manusia. Teknik-teknik knowledge management, data mining, dan text mining baru ini sedang mengubah cara bagaimana pengetahuan baru ditemukan, diorganisir, diaplikasikan, dan disebarkan. Dengan
Halaman 15

Tien Kumalasari

G651100211

menambah kecepatan komputer, konektivitas Internet,

dan

kemajuan dalam penelitian bidang informatika medis, kami yakin akan terus menghasilkan pengetahuan biomedis secara efektif dan efisien, memungkinkan kita memahami proses-proses kehidupan biologis yang kompleks dan lebih mudah untuk mendapatkan data dan informasi tentang biomedis.

REFERENSI Abidi, S. S. R. (2001). Knowledge Management in Healthcare: Towards Knowledgedriven Decision-support Services, International Journal of Medical Informatics, 63, 5-18. Acir, N. and Guzelis, C. (2004). Automatic Spike Detection in EEG by a Two-stage Procedure Based on Support Vector Machines, Computers in Biology and Medicine, 34(7), 561-575. Ackerman, M. J. (1991). The Visible Human Project, Journal of Biocommunication, 18(2), 14. Ahmad, S., Gromiha, M. M., and Sarai, A. (2004). Analysis and Prediction of DNA-binding Proteins and Their Binding Residues Based on Composition, Sequence, and Structural Information, Bioinformatics, 20(4), 477-486. Altschul, S. F., Madden, T. L., Schaffer, A. A., Zhang, J., Zhang, Z., Miller, W., and Lipman, D. J. (1997). Gapped BLAST and PSI-BLAST: A New Generation of Protein Database Search Programs, Nucleic Acids Research, 25(17), 3389-3402. Antani, S., Lee, D. J., Long, L. R., and Thoma, G. R. (2004). Evaluation of Shape Similarity Measurement Methods for Spine Xray Images, Journal of Visual Communication and Image Representation, 15, 285-302.

Halaman 16

Tien Kumalasari

G651100211

Baclawski, K., Cigna, J., Kokar, M. W., Mager, P., and Indurkhya, B. (2000). Knowledge Representation and Indexing Using the Unified Medical Language System, in Proceedings of the Pacific Symposium on Biocomputing, 493-504. Barrera, J., Cesar-Jr, R. M., Ferreira, J. E., and Gubitoso, M. D. (2004). An Environment for Knowledge Discovery in Biology, Computers in Biology and Medicine, 34, 427-447. Baujard, O., Baujard, V., Aurel, S., Boyer, C., and Appel, R. D. (1998). Trends in Medical Information Retrieval on the Internet, Computers in Biology and Medicine, 28, 589-601. Belacel, B., Cuperlovic-Culf, M., Laflamme, M., and Ouellette, R. (2004). Fuzzy J-Means and VNS Methods for Clustering Genes from Microarray Data, Bioinformatics, 20(11), 1690-1701. Belew, R. K. (1989). Adaptive Information Retrieval: Using a Connectionist representation to Retrieve and Learn about Documents, in Proceedings of the 12th ACM-SIGIR Conference, Cambridge, MA, June 1989. Berman, J. J. (2002). Confidentiality Issues for Medical Data Miners, Artificial Intelligencein Medicine, 26(1-2), 25-36. Blaschke, C., Andrade, M. A., Ouzounis, C. and Valencia, A. (1999). Automatic Extraction of Biological Information from Scientific Text: Protein-Protein Interactions, in Proceedings of the International Conference on Intelligent Systems for Molecular Biology, 60-67. Bodenreider, O. and McCray, A. T. (2003). Exploring Semantic Groups through Visual Approaches, Journal of Biomedical Informatics, 36, 414-432. Breiman, L. and Spector, P. (1992). Submodel Selection and Evaluation in Regression: The X-random Case, International Statistical Review, 60(3), 291-319. Brown, M. P. S., Grundy, W. N., Lin, D., Cristianini, N., Sugnet, C. W., Furey, T. S., Ares, M., and Haussler, D. (2000). Knowledge-based Analysis of Microarray Gene Expression Data by Using Support Vector Machines, in Proceedings of the National Academy of Sciences, 97, 262-267. Campbell, K. E., Oliver, D. E., and Shortliffe, E. H. (1998). The Unified Medical Language System: Toward a Collaborative
Halaman 17

Tien Kumalasari

G651100211

Approach for Solving Terminologic Problems, Journal of the American Medical Informatics Association, 5(1), 12-16. Carbonell, J. G. Michalski, R. S., Mitchell, T. M. (1983). An Overview of Machine Learning, in R. S. Michalski, J. G.

Halaman 18