Ekstraksi Data Akademik Pada Text-Mining
Ekstraksi Data Akademik Pada Text-Mining
Kata Kunci: text-mining, ekstraksi informasi, Sequence Matching, ekstraksi web dat,
data mining,
1. PENDAHULUAN
Text mining menjadi kunci penting untuk menjawab permasalahan di masa depan
mengenai pengaksesan informasi yang bermanfaat dengan jumlah data yang terus
mengalami peningkatan.
2. PENELITIAN TERKAIT
Web mining merupakan penggunaan teknik data mining untuk menemukan dan
mengekstrak informasi dari dokumen dan layanan web. Tantangan dari web mining
adalah jumlah informasi yang banyak untuk mempermudah akses dengan
pengembalian data baik online maupun offline dari source teks dari web . Penelitian
web mining terintegrasi dengan berbagai macam penelitian disiplin ilmu
pengetahuan lainnya seperti DataBase (DB), Data Mining, Information Retrieval (IR),
Machine Learning (ML), Natural Language Process (NLP). Web mining dapat dibagi
menjadi tiga kategori utama, yaitu: content mining, usage mining, dan structure
mining.
Makalah ini memfokuskan kepada web content mining. Web content mining yaitu
merupakan aplikasi untuk me-mining, mengekstrak dan menggabungkan data,
informasi dan pengetahuan yang bermanfaat dari isi halaman web. Data web content
terdiri dari:
1. Cara pandang database: cara pandang ini mencoba untuk memodelkan data pada
web dan mengintegrasikannya agar dapat digunakan sebaik mungkin.
3. Web Mining
Perkembangan dan terdistribusinya informasi di Internet merupakan suatu
pengetahuan yang sangat bernilai. Dengan semakin pesatnya jumlah informasi
yang tersedia, maka dibutuhkan suatu tool bagi pengguna untuk mendapatkan
informasi tertentu secara efektif dan efisien. Meskipun mesin pencari atau search
engine dapat menelurusi dan mencari informasi yang diinginkan, tetapi kadang kala
dibutuhkan tool yang dapat mengambil isi (content) dari sebuah halaman Web yang
diperoleh. Untuk itu penelitian dan pengembangan teknologi untuk menggali
informasi ini terus berkembang. Web mining adalah suatu bidang penelitian yang
sangat berkembang saat ini, meskipun saat ini belum diperoleh kesepakatan
mengenai definisi Web mining itu sendiri. Web mining adalah sebuah integrasi
beberapa teknologi, seperti data mining, statistik, informatika, dan sebagainya
(Jicheng, 1999). Web mining adalah suatu aktifitas untuk menidentifikasi pola p
yang terkandung dalam sebuah koleksi dokumen C, yang dapat dituliskan sebagai
pemetaan : C p . Definisi tersebut di atas menunjukkan bahwa Web mining
mempunyai kemiripan dengan data mining. Tetapi Web mining memiliki karakteristik
khusus, antara lain adalah sumber yang digunakan adalah dokumen web. Selain itu
pola yang dapat diperoleh dari Web mining adalah isi dari dokumen web atau
struktur dari Web, sebab sebuah dokumen Web berisi informasi dan hyperlink.
Selain itu Web mining mengolah data yang bersifat semi terstruktur sedangkan data
mining mengolah data yang lebih terstruktur seperti basis data. Pencarian informasi
Web adalah sebuah proses untuk memperoleh himpunan bagian dokumen S yang
sesuai dengan query q tertentu dari kumpulan dokumen C, atau dapat dituliskan
sebagai berikut: : ( C , q ) S . Pencarian informasi Web mempunyai tujuan yang
berbeda dengan Web mining. Web mining adalah proses lebih lanjut dari pencarian
informasi Web. Meskipun demikian keduanya saling melengkapi.
Web mining
Beberapa aplikasi dalam Web text mining adalah kategorisasi teks, perangkuman
informasi, analisis asoisiasi, dan peramalan. Penjelasan lebih lanjut aplikasi tersebut
adalah sebagai berikut:
a. Kategorisasi teks
Pada aplikasi ini diberikan sekumpulan dokumen C yang kemudian akan
dikelompokkan ke dalam kelompok tertentu. Hal ini akan memudahkan
pengguna untuk melakukan pencarian dokumen berdasarkan kelompok
tertentu.
b. Perangkuman informasi
Pada aplikasi ini diberikan sekumpulan dokumen C yang kemudian masing-
masing akan diekstrak untuk diambil informasi tertentu untuk kemudian
digabungkan menjadi sekumpulan data sehingga dapat dibangun satu basis
data informasi tertentu.
c. Analisis asosiasi
Pada aplikasi ini yang dilakukan adalah melakukan ekstraksi hubungan antara
tahapan dan kata dalam sebuah dokumen.
d. Prediksi
Aplikasi ini merupakan langkah lebih lanjut dari aplikasi perangkuman
informasi. Aplikasi ini setelah melakukan ekstraksi terhadap dokumen akan
melakukan prediksi berdasarkan infdormasi atau data yang dia peroleh.
Pada dasarnya metode dalam Web mining ini mirip dengan mining file teks biasa,
tetapi harus ditambah untuk memisahkan antara teks informasi dengan teks sebuah
tag HTML yang telah dijelaskan pada bagian sebelumnya.
Halaman Web yang dibangun menggunakan berbasis teks Bahasa mark-up (HTML
dan XHTML), dan sering mengandung kekayaan data yang berguna dalam bentuk
teks. Namun, Halaman web yang paling dirancang untuk manusia pengguna akhir dan
tidak untuk kemudahan penggunaan otomatis. Karena itu, alat kit yang mengikis
konten web diciptakan. Sebuah web scraper sebuah API untuk mengekstrak data dari
sebuah situs web. Kami membantu Anda untuk membuat semacam API yang
membantu Anda untuk mengikis data yang sesuai kebutuhan Anda. Kami
menyediakan web berkualitas dan terjangkau aplikasi Data Ekstraksi
A. Pengumpulan Data
Biasanya, transfer data antar program dilakukan dengan menggunakan struktur data
cocok untuk pemrosesan otomatis oleh komputer, bukan orang. Format dan protokol
pertukaran seperti biasanya kaku terstruktur, terdokumentasi dengan baik, mudah
diurai, dan menjaga ambiguitas untuk minimum. Sangat sering, transmisi ini bukan
manusia-dibaca sama sekali. Itulah mengapa elemen kunci yang membedakan data
yang menggores dari parsing biasa adalah bahwa output yang tergores dimaksudkan
untuk ditampilkan ke pengguna akhir.
B. Email Extractor
Sebuah alat yang membantu Anda untuk mengekstrak id email dari sumber terpercaya
otomatis yang disebut extractor email. Pada dasarnya layanan fungsi mengumpulkan
kontak bisnis dari berbagai Halaman Web, file HTML, file teks atau format lainnya
tanpa id email duplikat.
C. Layar scrapping
Scraping layar disebut praktek membaca data teks dari layar tampilan komputer
terminal dan mengumpulkan data visual dari sebuah sumber, bukan parsing data di
web gesekan.
Dalam data extraction ini kita akan menerapkan sebuah teknik yang
dinamakan dengan partial tree alignment , yang kunci pokoknya adalah
bagaimana mencocokkan corresponding data item atau field dari data semua
data records. Ada dua langkah penting dalam data extraction:
1. Membuat satu root tag tree untuk masing-masin data record :
Setelah semua data record telah teridentifikasi, sub-trees pada masing data
records di susun ulang ke dalam single tree .Masing-masing data record
ada kemungkinan memiliki lebih dari satu sub-trees dari sebuah original tag
tree pada sebuah halaman , dan masing-masing data record mungkin tidak
memiliki kesamaan (Case 1 dan Case 2 pada kasus Pengidentifikasian data
record). Sub-step ini diperlukan untuk menyusun single tree untuk masing-
masing data record(sebuah root node buatan yang dapat di tambah setiap
saat).
2. Partial tree aligment: tag trees dari semua data dalam masing-masing data
region di aligned menggunakan metode partial alignment berdasarkan tree
matching
4. Text Mining
Text mining (biasa dikenal juga dengan text data mining atau penemuan pengetahuan)
dalam database tekstual adalah semi-otomatis proses ekstraksi pola (informasi yang
berguna dan pengetahuan) dari sumber data yang tidak terstruktur dalam jumlah yang
besar. Sedangkan data mining adalah proses identifikasi valid, novel, yang berpotensi
berguna, dan pada akhirnya dapat dipahami pola data yang tersimpan dalam database
yang terstruktur, dimana data diorganisir dalam catatan terstruktur dengan kategori,
ordinal, atau variabel yang terus menerus. Text mining mempunyai tujuan dan
menggunakan proses yang sama dengan data mining, tetapi text mining input proses
adalah koleksi data file tidak terstruktur misalnya Word dokumen, PDF file, text
excerpts,XML file, dll sedangkan data mining data file yang terstruktur dalam database.
Manfaat text mining sangat jelas ketika jumlah data tekstual yang dihasilkan sangat
besar, misalnya penelitian akademis (artikel penelitian), hukum (order pengadilan), dll.
Area lain dimana proses otomatisasi dari text tidak terstruktur mempunyai pengaruh
yang besar dalam komunikasi elektronik dan e-mail. Text mining tidak hanya dapat
digunakan untuk mengklasifikasi dan memfilter junk e-mail, tetapi dapat juga
digunakan untuk otomatisasi prioritas e-mail. Natural Language Processing (NLP)
adalah komponen yang penting dalam text mining dan subbidang dari kecerdasan
buatan (artificial intelligence) dan komputasi linguistik. NLP mempelajari masalah
“pemahaman” bahasa alami manusia, dengan mengkonversi penggambaran bahasa
manusia (seperti dokumen tekstual) ke dalam representasi formal lebih (dalam bentuk
data numeric dan simbolik) yang lebih memudahkan program computer untuk
memanipulasi. Tujuan dari NLP adalah melebihi manipulasi teks sintaks-driven (yang
sering disebut “penghitung kata”) untuk pemahaman yang benar dan pengolahan
bahasa alami yang mempertimbangkan keterbatasan gramatikal dan sematik sebagus
konteksnya. NLP berhasil diterapkan melalui program computer untuk memproses
bahasa secara otomatis, misalnya mesin penerjemah dan meringkas otomatis.
5. Web Mining
Web mining merupakan penerapan teknik data mining terhadap web dengan tujuan
untuk memperoleh pengetahuan dan informasi lebih dari dalam web. Web mining
dapat dikategorikan ke dalam tiga ruang lingkup yang berbeda, yaitu web content
mining, web structure mining dan web usage mining (Srivastava et al., 2000).
a) We
b
Content Mining mengacu pada ekstraksi informasi yang berguna dari halaman
web. dokumen dapat diekstrak dalam beberapa format terbaca-mesin sehingga
teknik otomatis dapat menghasilkan beberapa informasi tentang halaman web.
Web crawler digunakan untuk membaca isi sebuah situs web secara otomatis.
informasi yang dikumpulkan dapat meliputi karakteristik dokumen mirip dengan
apa yang digunakan dalam text mining, tetapi bisa termasuk konsep tambahan,
seperti hirarki dokumen. Web Content Mining juga dapat digunakan untuk
meningkatkan hasil yang dihasilkan oleh mesin pencari.
b) Web Structure Mining adalah proses penggalian informasi yang berguna dari link
embedded dalam dokumen web. Digunakan untuk mengidentifikasi otoritatif
halaman dan hub, yang merupakan landasan dari algoritma page-rank
kontemporer yang penting bagi mesin pencari populer seperti Google dan Yahoo!.
Analisis link sangat penting dalam memahami hubungan timbal balik antara
sejumlah besar halaman web, yang mengarah ke pemahaman yang lebih baik
dari komunitas web tertentu, klan, atau klik.
c) Web Usage Mining adalah pengambilan informasi yang berguna dari data yang
dihasilkan melalui kunjungan halaman web dan transaksi. Masand et al. (2002)
menyatakan bahwa setidaknya tiga jenis data yang dihasilkan melalui kunjungan
halaman web:
(i) Secara otomatis data yang tersimpan dalam server access log, referrer log,
agent log, dan cookie client-side
(iii) Metadata, seperti atribut halaman, atribut konten, dan data penggunaan.
d) Target iklan elektronik dan kupon pada kelompok pengguna didasarkan pada
pola akses pengguna
Meskipun identifikasi entitas dari teks telah cukup membantu untuk mendapatkan
informasi lebih lanjut, namun inferensi terhadap isi dokumen membutuhkan lebih dari
sekedar identifikasi entitas. Konteks dari entitas dalam sebuah dokumen dapat
diturunkan dari analisis relasi antar-entitas dalam dokumen. Penelitian mengenai relasi
ini sangat membantu dalam penerapan sistem ekstraksi informasi dan
penjawaban query akademik yang akan dibahas lebih lanjut pada bagian selanjutnya.
Beberapa pendekatan yang telah digunakan untuk melakukan ekstraksi relasi antraa
lain sebagai berikut [2].
Jika proses data mining melakukan penemuan pengetahuan dari data yang
sifatnya terstruktur, maka text mining menemukan dan melakukan ekstraksi
pengetahuan dari data yang tidak terstruktur. Text mining melibatkan 3 aktivitas
utama : (i) temu-balik informasi, yang mengumpulkan teks-teks yang relevan
dengan kebutuhan, (ii) ekstraksi informasi, yang mengidentifikasi dan
mengekstrak beberapa tipe spesifik dari informasi yang dicari, dan (iii) data
mining, yang menemukan asosiasi antara potongan-potongan informasi yang
diekstrak dari beberapa teks berbeda [1].
Selain mesin pencari untuk tujuan yang tidak spesifik, telah banyak pula terdapat
perangkat temu-balik informasi yang telah didesain secara spesifik untuk
melakukan query terhadap basis data penerbit jurnal-jurnal yang berkaitan
dengan ilmu tertentu. Beberapa contohnya antara lain sebagai berikut
Textpresso, Query Chem, iHOP, dan PubMatrix [1].
Untuk melakukan identifikasi dan tabulasi dari fakta yang berada pada dokumen
dalam kuantitas sangat besar, ekstraksi informasi merupakan teknologi yang
sangat relevan untuk menjawab kebutuhan tersebut. Tujuan akhir dari aplikasi
teknologi ini adalah untuk melakukan ekstraksi informasi dari teks tanpa
mensyaratkan end-user perlu membaca teks. Ekstraksi informasi dapat
digunakan untuk mendukung layanan temu-balik fakta atau sebagai tahapan
dalam melakukan text mining berbasiskan teks konseptual.
Tujuan dari sequence matching adalah untuk mencari common part dari halaman
web yang akan diekstrak. Untuk melakukan proses ini, metode sequence
matching mencoba untuk mengadopsi teknik penghitungan string edit distance
atau biasa juga disebut Levenshtein Distance [4]. Operasi yang dilakukan dalam
string edit distance di antaranya adalah insert, delete dan substitute [1]. Maksud
dari edit distance ini sendiri adalah menghitung jumlah minimum dari operasi
insert, delete dan substitution yang dilakukan untuk mengganti string S1 menjadi
S2 [2]. Sebagai contoh, edit distance antara “kitten” dan “sitting” adalah 3, nilai
tersebut berasal dari 3 operasi yang dilakukan, yaitu: a. kitten → sitten
(substitution 's' untuk 'k') b. sitten → sittin (substitution 'i' untuk 'e') c. sittin →
sitting (insert 'g' diakhir string)[4].
Recall merupakan perbandingan dari dokumen relevan yang sudah dikembalikan. Atau
bisa dikatakan bahwa recall merupakan fraction dari dokumen yang relevan berdasarkan
query atau permintaan yang sukses dijawab atau dikembalikan. Gambar 2 menyajikan
illustrasi dari Precision dan Recall.
(tp) ……………………..( 2 )
Re call ( R)
(tp fn)
F-Measure didefinisikan sebagai kombinasi dari recall dan precision dengan bobot yang
seimbang, rumusan dari F-Measure adalah sebagai berikut :
(tp tn)
F Measure ( F )
(tp fp fn tn) ……………………..( 3 )
Tahap data mining digunakan untuk menemukan asosiasi yang tidak ditemukan
sebelumnya dari antara fakta-fakta yang telah diekstrak oleh tahapan sebelumnya.
Tahap ini merupakan tahapan yang membungkus integrasi antara text
mining dan data mining. Kebanyakan teknik data miningyang diterapkan pada biologi
menggunakan asumsi bahwa data yang ada merupakan data biologi yang telah
terstruktur dengan baik, tidak seperti data tekstual tak terstruktur yang digunakan
dalam teknik text mining. Data tekstual tak terstruktur yang telah digunakan untuk
meningkatkan performansi hasil PSI-BLAST (position spesific iterated BLAST), dan
pencarian homolog sekuensial telah berhasil mengintegrasikan text
mining dengan data mining untuk keperluan klasifikasi fungsional berbasis sekuens
dari protein dengan menggunakan metodesupervised machine-learning. Akan tetapi,
karena cluster tersebut masih relatif sedikit yang melalui tahap validasi, text
mining masih digunakan sebagai satu tahapan maju dari clusteringekspresi gen dan
menginterpretasikan cluster tersebut melalui asosiasi dengan literatur dari penerbit.
Biologi merupakan salah satu contoh bidang ilmu yang menunjukkan pergeseran
kecenderungan pengetahuan sains dari cara berpikir yang digerakkan oleh hipotesis
ke arah cara berpikir terintegrasi yang bersifat holistik, yaitu memadukan hipotesis
dengan data. Data mengenai ilmu pengetahuan interdisiplin seperti biologi dapat
ditemui dalam bentuk yang sangat beragam, seperti data terstruktur yang berasal
dari basis data, data eksperimen, atau bahkan data tak terstruktur yang berasal dari
teks bebas. Jumlah data tekstual yang bersifat tak terstruktur mengalami
peningkatan yang sangat pesat hingga sangat sulit untuk menemukan pengetahuan
dan membuat hipotesis sains tanpa penggunaan teknologi akstraksi pengetahuan,
yang sangat bertumpu pada teknik data mining.
Dalam disiplin ilmu dengan data yang melimpah namun kurang berisi dalam hal
hipotesis di dalamnya (seperti data gen fungsional dan biomedik), metode sains
deduktif sulit untuk dipertahankan karena tidak dapat memberikan perkembangan
terakhir dari ilmu pengetahuan tertentu dengan cepat. Untuk itu, pada saat ini
penemuan pengetahuan dengan metode induksi yang digerakkan oleh data
mengalami perkembangan yang pesat. Ciri khas metode ini adalah rapid
mining kandidat hipotesis dari literatur-literatur, yang kemudian diuji dan divalidasi
secara subsekuens dengan data eksperimen yang tersedia [1].
Dengan metode tersebut dapat dibuat koneksi antara beberapa argumen yang
nampak terpisah dan tidak memilki korelasi apapun. Beberapa koneksi dari jurnal-
jurnal dan informasi penerbit MEDLINE yang dibuat dengan metode ini antara lain
sebagai berikut: (i) keterhubungan antara penyakit migraine dan defisiensi
magnesium, yang telah divalidasi secara subsekuens melalui eksperimen, (ii)
keterhubungan antara indomethacin dan gangguan Alzheimer, (iii) serta
keterhubungan antara Curcuma longa dan gangguan retina. Dengan menggunakan
teknik yang sama pula dan dengan berdasar kepada bukti literatur, dapat diberikan
saran mengenai pemberian thalidomide untuk penanganan beberapa penyakit,
seperti hepatitis C kronis dan gangguan pankreas akut [1].
(ii) Relasi biner yang telah diekstrak kemudian direpresentasikan dalam bentuk triplet
berurut <Ci, R, Cj>, di mana Ci dan Cj merupakan konsep biologi dan R merupakan
relasi biologi yang diperoleh dari corpus. Seluruh relasi diasosiasikan dengan nilai
keanggotaan fuzzy, berdasarkan frekuensi relatif kemunculan relasi. Seluruh relasi
didefinisikan pada level konseptual untuk memudahkan deskripsinya.
(iii) Seluruh informasi relevan, seperti nama entitas biologi dan kategori
biologisnya, serta relasi biologi dan kemunculannya, seluruhnya dikumpulkan dalam
sebuah basis data pengetahuan yang terstruktur. Basis pengetahuan ini kemudian
diindeks berdasarkan relasi, entitas, dan konsepnya dengan menggunakan
mekanisme indeks novel.
Secara umum, sistem yang dibahas memiliki 5 modul utama yang memilki peranan
masing-masing yang terintegrasi dalam sistem [2].
Modul ini menerima masukan berupa abstrak makalah biologi yang telah
mengandung tag dan mengekstrak nama entitas dari teks. Karena entitas dapat saja
diselipkan dalam tag tunggal maupun ganda, maka diperlukan desain rule untuk
melakukan pre-proses dan kemudian mengekstrak entitas biologi dari dokumen teks
yang telah diberi tag.
Modul ini berfungsi untuk menyaring tag-tag ML dari dokumen input. Dokumen yang
telah disaring kemudian dianalisa dengan bantuan POS (Part-of-
Speech) Tagger untuk mengubah tiap kalimat ke dalam bentuk semi-terstruktur
berbasiskan konsep.
Modul ini menyimpan koleksi abstrak untuk melakukan ekstraksi informasi yang lebih
efisian dari waktu ke waktu. Di dalamnya terdapat parser dokumen yang menyimpan
lokasi terdapatnya relasi biologi dalam koleksi untuk membuat basis data yang telah
terindeks menurut entitas, konsep, dan relasi.
(iv) Pemroses Query
5. KESIMPULAN
Teknologi text mining dapat diaplikasikan dalam berbagai area ilmu pengetahuan,
termasuk biologi sebagai ilmu interdisipliner. Beberapa pengembangan text-
mining dalam bidang biologi antara lain pembuatan hipotesis/kesimpulan secara
induktif serta pembuatan sistem ekstraksi informasi biologi untuk identifikasi relasi
dan akses literatur yang relevan.
ii) Integrasi text mining dengan data mining akan merintis pengembangan aplikasi
yang lebih luas dalam berbagai bidang ilmu pengetahuan teori maupun terapan,
seperti pencarian similaritas struktur kimiawi atau integrasi rekam medis dengan
data gen dan bukti dari literatur untuk kepentingan aplikasi farmasi. Dengan
memadukan aplikasi dengan konsep sistem tersebar, maka akan memberikan lebih
banyak manfaat kepada masyarakat.
Eksplorasi dan eksploitasi teknik data mining masih berada pada tahap awal
pengembangan, namun telah mencapai kemajuan yang cukup pesat. Teknik ini
diharapkan dapat menjadi alat yang dapat diandalkan oleh para ahli ilmu
pengetahuan di masa depan untuk dapat melakukan ekstraksi informasi
pengetahuan intersisipliner dengan lebih efektif dan efisien, yang pada akhirnya
akan membawa kemajuan yang lebih pesat pada perkembangan ilmu pengetahuan
secara keseluruhan.
6. DAFTAR REFERENSI
[1] Ananiaduo, Sophia. et al. (2006) Text mining and its appplications in systems
biology.
[2] Abulaish, M. and Dey, Lipika. (2006) Biological relation extraction and query
answering from MEDLINE abstracts using ontology-based text mining.
[3] Cohen, Aaron M. and Hersh, William R. (2004) A survey of current work in
biomedical text mining.
[4] Spasic, Irene. et al. (2005) Text mining and ontologies in biomedicine :
Making sense of raw text.
[5]. Turban, Efraim, Ramesh Sharda, Dursun Delen. Decision Support and
Business Intelligence System. Pearson Education.
[6]. http://seagate.staff.ugm.ac.id/?p=15
[7]. http://www.anvari.net/23_BI/turban_dss9e_ch07.ppt
[8]. Caglayan, P., Harrison, C., 1997, Agent SourceBook: A Complete Guide to
Desktop, Internet, and Intranet Agents, John Wiley & Sons, Inc, New York.
[9]. Cheong, Fan-Chun, 1996, Internet Agents: Spiders, Wanderers, Brokers, and
‘Bots, New Riders Publishing, Indianapolis.
[10]. Gilbert, D., 1997, Intelligent Agents: The Right Information at the Right Time,
IBM white paper, http://www.networking.ibm.com/iag/iagwp1.html.
[11]. Karnik, Neeran, 1999, Security in Mobile Agent System, PH.D. Dissertation,
University of Minessota.
[12]. Maes, P., 1994, Agents that Reduce work and Information Overload,
Communications of the ACM, 37(7): page 31-40.
[13]. Murugesan, San, 1998, Intelligent Agents on the Internet and Web, IEEE,
page 97 - 102.
[14]. Turban, Efraim, Lee, Jae, King, David, Chung, H. Michael, 2000, Electronic
Commerce : A Managerial Perspective, Prentice-Hall, New-Jersey.
[15]. Wooldridge, J., Jennings, N.R., 1995, Intelligent agents: Theory and Practice,
The Knowledge Engineering Review,
[16]. Wuthrich, B., Cho, V., Leung, S., Permunetilleke, Sankaran, K, Zhang, J., Lam,
W., 1998, Daily Stock Market Forecast from Textual Web Data, Hong Kong.