TM (Text Summarization) PDF

Kolokium bersama komunitas datamining Indonesia & soft-computing Indonesia, Sep’06
Text Mining dan Knowledge Discovery

Igg Adiwijaya Ph.D.
EMC Corporation
Igg_adiwijaya@hotmail.com
Abstract
Pesatnya pengunaan dan adopsi Internet telah memacu pertumbuhan dan pertukaran informasi yang sangat
pesat dibandingkan era sebelumnya. Sebagai akibatnya, jumlah informasi terus meningkat secara
exponensial. Walau perkembangan ini memungkinan informasi untuk di akses penguna dengan mudah,
jumlah yang terkendalikan ini telah menimbulkan isu and tantangan yang besar. Tidak hanya di Internet,
jumlah informasi, terutama dalam bentuk dokumen atau text, juga di hasilkan, di koleksi, dan di konsumsi
dalam jumlah yang tidak kalah besar di berbagai institusi dan perusahaan. Akses dan pengunaan akan
informasi text yang tidak lagi di dominasi oleh ahli riset, spesialis analisa dan informasi, dan librarian
seperti di era sebelumnya telah membuat tantangan menjadi lebih komplex.
Untuk e-Kolokium text mining ini, saya akan memberikan gambaran secara garis besar terhadap bidang
text mining yang sedang berkembang. Didalamnya, saya akan diskusikan issue dan tantangan yang di
hadapi di bidang text mining. Untuk setiap tantangan, saya akan presentasikan solusi-solusi yang telah di
hasilkan oleh ahli-ahli riset di dunia dan kekurangannya. Pada akhir makalah, saya akan ulas issue dan
tantangan text mining yang saya hadapi sekarang, khususnya di bidang “knowledge discovery”.
1 Introduksi librarian seperti di era sebelumnya. Pencarian

Pesatnya pengunaan dan adopsi Internet telah dan konsumsi informasi text telah menjadi
memacu pertumbuhan dan pertukaran informasi sesuatu yang umum untuk semua tipe pengguna
yang sangat pesat dibandingkan era sebelumnya. dengan kepentingan yang berbeda.
Sebagai akibatnya, jumlah informasi terus
meningkat secara exponensial, - lebih dari 550 Situasi saat ini telah menghasilkan 'success
triliun dokumen saat ini. 7.3 juta Internet page story' di bidang solusi dan tool untuk membantu
baru tiap hari nya. Walau perkembangan ini penguna mencari dan mengorganisasi informasi
memungkinan informasi untuk di akses penguna dalam jumlah besar, mulai dari AltaVista
dengan mudah, jumlah yang terkendalikan ini sampai Google sekarang. Dikarenakan
telah menimbulkan isu and tantangan yang besar. kemampuan penguna untuk menerima dan
Tidak hanya di Internet, jumlah informasi, mencerna informasi yang terbatas, “search
terutama dalam bentuk dokumen atau text, juga engines” disisi lain telah mempersulit kita untuk
di hasilkan, di koleksi, dan di konsumsi dalam mencerna informasi dengan cepat dan efektif.
jumlah yang tidak kalah besar di berbagai “Push technology” dan mudahnya kita
institusi dan perusahaan. Sebagai contoh, survey mendapatkan informasi melalui search engine,
yang di selengarakan oleh “Database Trend and hanya dengan menekan beberapa tombol
Application” dan “QL2 Sofware” di awal tahun komputer, telah membuat penguna terus
2006 menunjukan 86% lebih informasi yang di berlomba mengikuti informasi, perkembangan
hasilkan dan dikonsumsikan oleh staff berita, dan events yang terbaru. Informasi
perusahaan besar di Amerika Utara dan Eropa overload seperti ini adalah salah satu isu yang di
adalah dalam bentuk “unstructured text”. 80- jawab oleh Text Mining.
85% dari total data di dalam database ada dalam
bentuk text[2]. 80% dari knowledge di bidang Text mining bisa dibilang subyek riset yang
biology dan medical ditemukan di paper riset. tergolong baru. text mining memberikan solusi
Format file yang populer termasuk MS Word, pada masalah-masalah dalam memproses,
MS Excel, MS PPT, Email, PDF, dan Txt. Ini mengorganisasi, dan menganalisa unstructured
menunjukan akses dan pengunaan akan text dalam jumlah besar. Dalam memberikan
informasi text yang tidak lagi di dominasi oleh solusi, text mining mengadopsi dan
ahli riset, spesialis analisa dan informasi, dan mengembangkan banyak teknik dan solusi dari
1
bidang lain, seperti Data Mining, Information complex dan tidak lengkap, arti yang tidak jelas
Retrieval, Statistik dan Matematik, Machine dan tidak standard, dan bahasa yang berbeda
Learning, Linguistic, Natural Language ditambah translasi yang tidak akurat.
processing, dan Visualization. Kegiatan riset Dikarenakan structured data ditujukan agar
untuk text mining terdiri dari ekstraksi dan mudah di proses komputer secara automatic,
penyimpanan text, “preprocessing” akan konten pre-process data di data mining jauh lebih
text, pengumpulan data statistik dan indexing, mudah dilakukan dari pada pada unstructured
analisa konten, dan presentasi. Organisasi e- text. Text di ciptakan bukan untuk di gunakan
Kolokium ini adalah sebagai berikut. Sesi 2 oleh mesin, tapi untuk dikonsumsi manusia
akan mendiskusikan definisi dan tujuan text langsung. Karena itu, pada umumnya “Natural
timing yang lebih dalam. Sub-aktivitas text Language Processor” digunakan untuk
mining yang berbeda di jabarkan di sesi ke 3. Di memproses unstructured text. Hearst [1]
sesi ke 4, saya akan diskusikan riset saya di mempertanyakan pengunaan kata ‘mining’ di
bidang “Knowledge Discovery” dan Integrasi. data mining dan text mining. Kata ‘mining’
Sesi 5 adalah sesi penutup. memberikan arti dimana fakta-fakta atau relasi-
relasi baru dihasilkan dari proses me-‘mining’
data. Dia mengklaim bahwa aktivitas data
2 Text Mining: Definisi mining lebih memfocuskan pada penemuan
Apa sih arti text mining yang sebenarnya? trend dan pattern yang sebenarnya sudah ada.
Definisi akan text mining sudah sering di Sedangkan ahli text mining yang lain
berikan oleh banyak ahli riset dan praktisi [1, 2, beranggapan bahwa text mining adalah proses
3]. Seperti hal nya data mining, text mining penemuan kembali relasi dan fakta yang
adalah proses penemuan akan informasi atau terkubur didalam text, dan tidak harus baru.
trend baru yang sebelumnya tidak terungkap
dengan memproses dan menganalisa data dalam Ulasan di berikutnya sedikit mengikuti definisi
jumlah besar. Dalam menganalisa sebagian atau text mining oleh Hearst. Seperti di sebutkan
keseluruhan unstructured text, text mining sebelumnya, Text mining telah mengadopsi
mencoba untuk mengasosiasikan satu bagian teknik yang di gunakan di bidang natural
text dengan yang lainnya berdasarkan aturan- language processing dan computational
aturan tertentu. Hasil yang di harapkan adalah linguistics. Walaupun teknik di computational
informasi baru atau “insight” yang tidak linguistics bisa dibilang maju dan cukup akurat
terungkap jelas sebelumnya. Wikipedia [37] untuk mengekstrak informasi, tujuan text mining
mendefinisikan text mining sebagai berikut. bukan hanya mengekstrak informasi. Melainkan
“Text mining, also known as intelligent text untuk menemukan pattern dan informasi baru
analysis, text data mining , unstructured data yang belum terungkapkan [4], yang sulit
management, or knowledge discovery in text …, ditemukan tanpa analisa yang dalam. Walau
refers generally to the process of extracting kemampuan komputer untuk mencapai
interesting and non-trivial information and kemampuan untuk memproses text seperti
knowledge (usually converted to metadata manusia sangat sulit, bila tidak mustahil, telah
elements) from unstructured text (i.e. free text) banyak teknik-teknik baru di computational
stored in electronic form.” linguistics yang bisa membantu text mining
untuk mencerna text lebih jauh lagi.
Seperti halnya data mining, text mining juga
menghadapi masalah yang sama, termasuk Sering kali penguna search engine di Internet
jumlah data yang besar, dimensi yang tinggi, menganggap search engine sebagai salah satu
data dan struktur yang terus berubah, dan data implementasi text mining. Andil utama search
“noise.” Berbeda dengan data mining yang engine hanyalah menyingkirkan text yang tidak
utamanya memproses structured data, data yang memiliki kata-kunci yang di cari pengunna. Dan
digunakan text mining pada umumnya dalam lagi penguna search engine mengetahui
bentuk unstructured, atau minimal semi- sebelumnya text seperti apa yang hendak dia
structured, text. Akibatnya, text mining cari. Bisa dibilang kalau pencarian seperti ini
mempunyai tantangan tambahan yang tidak di termasuk dalam “Information Retrieval.” Focus
temui di data mining, seperti struktur text yang information retreieval adalah menemukan
2
dokumen atau text yang memenuhi kriteria bandingkan dan di analisa guna memberikan
pencari. Text mining lebih memfocuskan pada hasil trend yang berarti.
relasi dan co-existence dari satu dokumen
dengan yang lainnya. Walaupun text mining Untuk technical working paper, documentasi,
lebih dari information retrieval, text mining dan software specifikasi dokumen, text mining
telah mengadopsi information retrieval untuk bisa di gunakan untuk mengekstrak software
menyaring dan mengurangi jumlah informasi requirement dari spesifikasi dokumen secara
untuk diproses selanjutnya. Methode statistik otomatis atau mendeteksi ke kurangan antara
juga sudah mulai sering di gunakan dan di source code dan documentasinya secara
adopsi di computational linguistics dan otomatis. For web pages, text mining bisa di
information retrieval yang nanti nya bisa gunakan untuk menganalisa website perusahaan,
memberikan tool yang lebih baik dan akurat structur websitenya, perbandingan website
untuk text mining. content yang satu dengan site yang lain. Masih
banyak lagi aplikasi text mining yang di
Banyak juga ahli riset yang menkategorikan butuhkan.
document categorization sebagai text mining.
Walau kategorisasi dokumen dapat memberikan
label dan kesimpulan yang akurat pada 3. Proses Text Mining
dokumen-dokumen tertentu, ini tidak Proses text mining mencakup beberapa sub-task,
menghasilkan fakta-fakta atau relasi yang baru. seperti information retrieval, categorization,
Tetapi bilamana label-label atau kesimpulan- POS tagging, Clustering, dan lainnya, yang bisa
kesimpulan yang di hasilkan di analisa dan di di katergorikan kedalam framework
korelasikan lebih lanjut, ini bisa menghasilkan “Knowledge Discovery in Databases” (KDD)
fakta dan relasi baru antara group-group [5], yang tidak lain adalah proses
dokumen yang berbeda. Kegiatan seperti ini bisa mengidentifikasikan pattern di dalam data yang
di masukan dalam text mining. benar, unik, berguna, dan dimengerti. KDD
proses interaktif, bisa berulang, dan terdiri dari
2.1 Aplikasi text mining step Selection, Preprocessing, Transformation,
Aplikasi text mining bisa di bagi berdasarkan Data Mining, dan Interpretation/Evaluation.
tipe unstructured text yang di proses. Untuk Dalam sesi ini, proses dan kegiatan text mining
ustructured text dalam bentuk emails, intant yang beragam akan saya coba assosiasikan
messages, dan blogs, pada umumnya penguna dengan KDD step dan ulas secara singkat.
ingin mencari atau “mine” informasi mengenai
orang (seperti email pengirim, alamat, nama
lengkap, dll), perusahaan (seperti nama lengkap 3.1 Selection
dan lokasi), organisasi, dan kejadian-kejadian KDD Selection mencakup penseleksian data set
(seperti penemuan baru, pengumuman penting, dan sample. Focus nya ada pada tipe discovery
dll). Untuk berita dari berbagai sumber, text yang ingin di lakukan. Activitas text mining
mining bisa di gunakan untuk membandingkan yang bisa masuk dalam phase ini termasuk
berita yang sama atau berbeda yang berasal dari Information Retrieval, Categorization, dan
sumber yang berbeda, mungkin dengan bahasa Clustering. Tujuan information retrieval adalah
yang berbeda. Lebih jauh lagi adalah analisa dan untuk mengubah unstructured text menjadi
organisasi isi berita berdasarkan waktu publikasi structured data atau format yang mudah untuk di
(atau “temporal analysis”). Text mining juga proses lebih lanjut nantinya. Contonya, email
bisa membantu untuk proses “deduplication” di body di proses secara automatic untuk
sini. Untuk buku-buku dan artikel-artikel mendapatkan nama, email address, alamat,
science, text mining di butuhkan untuk telephone, dan information yang relevan lainnya.
mendeteksi trend di bidang riset tertentu. Salah Sudah banyak teknik information retrieval untuk
satu cara yang bisa di lakukan adalah dengan berbagai domain. Freitag et. al. [6] mengadopsi
memonitor jumlah publikasi untuk bidang riset wrapper teknik, dengan extraction dan engine
tertentu untuk jangka waktu tertentu. Hasil-hasil rule, to perform information retreival untuk
untuk bidang riset yang berbeda bisa di bagian tertentu di dalam unstructured text.
Wrapper mempunyai kemampuan mesin
3
learning. Banyak teknik-teknik information Disambiguation adalah activitas untuk

retrieval untuk web pages telah di propose oleh menentukan arti atau sense akan kata-kata yang
beberapa ahli riset, seperti Eikvil [7] dan tidak jelas atau ambiguos. Kata ‘Cold’ adalah
Cunningham [8]. contoh yang mudah. Cold bisa berarti suhu yang
dingin, atau bisa juga berarti penyakit “flu”
KDD Categorization memfocuskan pada proses tergantung akan kontex yang dibicarakan.
peng-“assign”-an documen secara otomatis Disambiguation cocok sebagai “intermediate”
terhadap koleksi class yang telah disiapkan step untuk selanjutnya di teruskan ke machine
sebelumnya. Teknik categorization yang populer learning, information extraction, term clustering,
untuk text mining adalah mengadopsi atau spelling correction. Dictionary atau training
information retrieval atau machine learning. rule bisa digunakan sebagai solusi terhadap
Sub-activitas text categorization mencakup disambiguation. Manning et.al. [23]
content representation, seleksi fitur, extraksi memberikan survey akan riset pada
fitur, dan pengunaan machine learning untuk disambiguation.
adaptasi pengklasifikasian secara semi-otomatis.
Sebagian dari peneliti di sub-activitas
categorization termasuk [10, 11, 12, 13, 14, 15]. 3.3 Transformation
Survey akan pengunaan machine learning untuk Tranformation step bertujuan untuk menemukan
text categorization dapat di simak di Sebastiani fitur-fitur yang tersimpan di dalam data yang
[9]. penting berdasarkan kebutuhan yang diperlukan.
Proses ini juga bertujuan untuk mengurangi
Tujuan Clustering adalah untuk memisahkan jumlah variabel dan data yang tidak terlalu di
sekumpulan dokumen kedalam beberapa group perlukan. Disambiguation dan Term Clustering
atau kluster dengan menilai kemiripan antar termasuk dalam kategori ini. Disambiguation
dokumen dari segi kontent. Subactivitas telah di jelaskan sebelumnya. Sedangkan Term
clustering termasuk representasi dokumen, Clustering adalah activitas untuk menciptakan
penurunan dimensi, pengunaan cluster algorithm, model yang bisa digunakan untuk meng-index
dan evaluasi. Riset di text clustering ini sudah dokumen pada tahap yang berbeda. Tehnik
banyak dikerjakan, termasuk oleh [16, 17, 18, disini termasuk pembentukan thesaurus atau
19]. ontology secara otomatis dan mengunakan index
semantic. Thesaurus atau ontology terdiri dari
konsep atau terminology dan relationship antar
3.2 Preprocessing konsep. Riset awal di term clustering di mulai
KDD Preprocessing memfocuskan pada data dari information retrieval. Teknik untuk
cleaning & cleansing, termasuk menghilangkan document clustering sering kali di pakai untuk
noise di data, atau mengadaptasi noise, dan term clustering [26 and 23].
mengatasi informasi yang hilang atau tidak
komplit. Text mining activitas seperti POS (Part Saya sendiri melakukan riset di Automatic
of Speech) Tagging dan Disambiguation bisa Ontology Integration. Tambah lengkap kosa-
dimasukan dalam phase KDD preprocessing. kata dan relationship antar kata, tambah lebih
POS Tagging bisa dikatakan sebagai aktivitas akurat hasil dari transformation activitas.
yang tujuannya memberikan label pada setiap Idealnya kita memerlukan ontology selengkap
kata dalam kalimat dan mengasosiasikan dengan mungkin. Tapi kadang ontology yang tersedia
“speech” yang relevan. Tambah banyak tag sangat terbatas. Salah satu cara untuk
dipakai untuk label, tambah complex dan rendah mendapatkan ontology yang lebih lengkap
performance. Beberapa teknik POS Tagging adalah dengan mengabungkan ontology dari
telah di kemukakan, termasuk Markov Models berbagai sumber untuk domain yang sama atau
oleh [20], Hidden markov Models oleh [21], dan berhubungan. Contohnya, medical ontology.
Transformation-based [22]. Manning et.al. [23] Medical ontology versi Inggris bisa di dapat
survey memberikan ulasan luas aka POS dari MeSH (Medical Subject Heading),
Tagging. SNOMED, UMLS, dan yang lainnya. Tantangan
yang dihadapi disini adalah menyediakan
mekanisme integrasi yang otomatis, atau
4
minimal semi-otomatis. Salah satu cara yang kata-kunci atau kalimat [29]. Teknik untuk text
telah saya berhasil capai adalah dengan summarization berdasarkan kalimat sering kali
mengekploitasi tipe relasi antar konsep yang diterapkan juga untuk text summarization
tersedia, di bantu dengan memberikan sample berdasarkan kata-kunci.
“matching” konsep antara dua ontology yang
berbeda. Sebagai contoh, UMLS terdiri lebih
dari 900,000 konsep, 1.7 juta terminology, dan 4 Knowledge Discovery and Mapping
sekitar 125 semantic dan hierarchy relationship.
Saya dan kawan riset saya berhasil 4.1 Knowledge Discovery
mengintegrasi dan menyesuaikan lebih dari 60% Di sesi ini, saya ulas kegiatan riset saya di
dari total terminology antara UMLS dengan bidang text mining (dan data mining), terutama
MeSH secara otomatis hanya dengan di field Knowledge Discovery dan Knowledge
membandingkan 125 relationships dan Mapping. Di karenakan tehnologi yang terus
memberikan beberapa sample konsep yang berkembang pesat, concept, terminology, dan
sebanding antara ke dua ontology. relationship baru dihasilkan dalam jumlah yang
cukup dan dengan frequensi yang cukup pesat.
Sebagai contoh, di bidang pharmasi dan
3.4 Data Mining biotechnologi, product baru dengan brandname,
Process Data Mining bertujuan untuk generic name, code name, dan synonym, terus di
menghasilkan patterns yang berguna dari hasilkan. Indication, symptom, therapy area,
koleksi text. Activitas text mining untuk step mechanim of action, dan relationship antar
data mining terdiri dari pemilihan mining teknik mereka yang baru terus di kembangkan. Di
yang benar, penentuan mining model dan bidang genomic, sequence dan nama protein
parameters. Term Clustering dan Parsial Parsing yang baru terus di hasilkan. Ini terindikasikan
bisa dimasuk dalam step ini. Parsial parsing atau dari terus bertambahnya data yang di simpan di
robust parsing bertujuan untuk mengidentifikasi genomic data bank seperti GenBank, PDB, dan
relationship yang lebih dalam antar kata-kata SWISSProt.
dalam kalimat. Parsial parsing memerlukan hasil
dari POS Tagging dan biasanya di gunakan Namun, seperti yang telah saya utarakan
secara bersamaan. Teknik pengunaan rule based sebelumnya, lebih dari 80% riset di science di
system, memory based system, statistical publikasikan melalu article, - unstructured text.
method, atau kombinasi antar teknik banyak di Untuk industri pharmasi dan biotech, organisasi
gunakan untuk parsial parsing. Survey dan riset sering kali mengumumkan product dan
yang lebih detail bisa di simak di [27, 28]. penemuan baru mereka di mas media.
Akibatnya, penemuan dan
terminology/relationship yang baru ini tidak
3.5 Interpretation/Evaluation secepatnya di diseminasikan ke ahli-ahli yang
Kegiatan Text mining yang bisa dikategorikan bersangkutan. Sering kali di butuhkan ekstraksi
di tahap Interpretation/Evaluation adalah text terminology dan arti yang baru secara manual.
Summarization. Tujuan text summarization Sudah umum bilamana banyak informasi baru
adalah untuk mengidentifikasikan key content yang tak terpakai atau hilang. Pentingnya
dari berbagai sumber data dimana key content knowledge discovery akan terminology yang
ini bisa merepresentatikan keseluruhan text baru ini juga sangat berarti dan dibutuhkan oleh
secara akurat. Text summarization bisa juga analis di bidang marketing, sales, investment,
disamakan dengan text classification. Sering kali business aquisisi, finance, dan lainnya. Investor
hasil dari text summarization di gunakan untuk yang ketinggalan berita akan product launch
menjelaskan seluruh kontent text dengan baru di media akan kehilangan kesempatan
mengekstrak hanya keyword yang penting, untuk menanamkan modalnya semaksimal
untuk menghidari membaca seluruh text, atau mungkin di perusahaan yang bersangkutan.
untuk membantu proses text searching supaya
lebih cepat dan akurat dengan memfocuskan Tantangan text mining disini tidak hanya
hanya pada keyword penting. Text menemukan terminology dan relatioship baru di
summarization bisa dilakukan pada tiap-tiap dalam unstructured text, tapi juga hubungan
5
terminology/konsep yang baru itu dengan oleh lebih dari satu siaran TV dan banyak online
knowledge base yang sudah terkumpul. media. Sering kali informasi yang sama dari
Contohnya, peneliti di “Alliance Corporation” berbagai sumber sangat peting bagi penguna.
mengumumkan penemuan ‘Compound’ (atau Salah satu tujuannya agar tidak salah informasi,
product awal) baru dengan nama tidak kehilangan sebagian kecil pun data, dan
“Octafluoropropane” untuk mechanism yang untuk perbandingan. Misalnya, market analis
baru “Ultrasound contrast agent” di online mas- memerlukan semua informasi akan perusahaan
media. Ahli-ahli lain yang berkecimpung di tertentu, termasuk news, informasi stok,
bidang yang sama sudah tentu ingin mengetahui informasi management, product, sales, revenue,
compound yang baru ini. Mereka ingin dan lainnya yang datang dari berbagai sumber.
mengetahui tidak hanya nama compound yang Ahli pharmasi akan memerlukan seluruh data
baru, tapi juga siapa yang memproduksi, apa untuk product, misalnya, “Octafluoropropane”,
symptom dan penyakit yang akan di tangulangi termasuk produsen, indicasi, mechanism,
compound baru ini, bila mechanim nya baru, development status, negara, comment, dan
apa hubungannya dengan mechanim yang sudah lainnya.
ada, apa status perkembangan product ini, siapa
yang akan me marketkan product ini nantinya, Sebagian tantangan yang di hadapi dalam
apa tanggapan ahli-ahli lainnya, dan sebagainya. mengkoleksi informasi yang dibutuhkan dari
berbagai sumber adalah sebagai berikut
Untuk menghadapi tantangan ini, diperlukan [30,31,32,33]. 1) jumlah data yang besar
kemampuan untuk menganalisa text yang menyebabkan pencarian yang memakan waktu.
komprehensif, menciptakan summary text yang Dan ini tergantung akan kecepatan dan
akurat, dan juga mengklasifikasi unstructured kemampuan masing-masing source servers. 2)
text. Hasil riset saya saat ini masih preliminari. informasi yang tidak semuanya lengkap. 3)
Untuk tantangan ini, saya mengadopsi dan Sumber data tidak selalu menyimpan data secara
meningkatkan statistical inference teknik dengan konsisten dengan sumber yang lain. Ini
bayesian sequential analysis untuk meng-“infer” membuat “matching” informasi yang sama
relationships antara terminologi baru dan yang menjadi susah. Di sesi ini saya akan focuskan
sudah ada lainnya, terutama scientific pada tantangan ke 3 dan akan saya ulas perlunya
terminologi, dengan jarak sedekat mungkin di text mining untuk menjawab tantangan ini.
dalam unstructured text yang bersangkutan.
Untuk meningkatkan akurasi hasil, saya Sebagai contoh, misalkan seorang peneliti ingin
memakai domain-specific medical ontology meng-ekstrak informasi untuk obat
yang terdiri dari MeSH, UMLS, dan “Octafluoropropane” dan informasi di simpan di
SNOWMED. Automatic integration teknik yang dua sumber data. Bila nama obat yang di pakai
saya utarakan sebelumnya saya pakai untuk di dua sumber data sama persis atau hampir
menghasilkan lebih dari 1.7 juta terminologi dan mirip, kedua informasi obat bisa di cocokan atau
lebih dari 900 ribu konsep dengan di “map” dengan mudah. Bila tidak, attribute
relationshipnya. Ontology yang comprehensive yang sama persis bisa di bandingkan dan bila
seperti ini telah banyak membantu dalam sama persis, bisa di ambil kesimpulan bahwa
menentukan atau “infer” arti dan relationship kedua obat itu sama dan bisa di cocokan. Sering
terminology yang baru [33,35]. kali informasi yang sama di tempat yang
berbeda tidak di simpan semudah ini dan
ketidak cocokan sering kali terjadi untuk
4.2 Knowledge Mapping informasi yang sama [34,36]. Contoh nyatanya,
Sering kali data yang sama disimpan di sumber gambar di bawah menunjukan hasil dari dua
yang berbeda. Berita yang sama di sebarkan sumber data untuk informasi obat yang sama.
6
Figure: Compound obat yang sama di dua sumber data yang berbeda
Seperti terlihat pada gambar diatas, compound Saya dan ahli riset lain telah mencoba untuk
name tidak mirip sama sekali. Ini mungkin meningkatkan hasil matching dengan
dikarenakan salah satu sumber telat merubah mengikutsertakan attribute values secara
informasi. Attribute obat tidak mempunyai semantic. Tiap-tiap attribute mempunyai
schema yang sama, seperti company. Sumber kepentingan yang berbeda untuk tujuan
pertama hanya punya satu attribute, sedangkan matching. Contohnya, matching Highest Phase
sumber kedua terbagi akan Originator, lebih penting dari matching Country. Matching
Developer, dan Licensee. Granularity akan yang cocok untuk Synonym bisa menghasilkan
attribute value juga berbeda. Contohnya, sumber ‘incorrect” matching data. Semantic seperti ini
pertama memakai UK (negara) sebagai region, kita berikan ranking dan nilai semestinya.
sumber kedua memakai Europe (region). Masih Tantangan matching telah menjadi tantangan
terdapat beberapa isu yang lainnya. memberikan total nilai matching dan ranking
untuk permbandingan 2 informasi obat. Kita
Dikarenakan pentingnya data seperti ini, tidak berhasil meningkatkan hasil matching obat
hanya untuk peneliti, tapi juga market analysis, menjadi lebih dari 70%.
investor, dan merger/acquisition department,
usaha untuk mencocokan informasi obat secara 70% ini masih dibawah yang diharapkan. Salah
otomatis atau semi-otomatis telat dilakukan oleh satu cara untuk meningkat hasil matching adalah
database vendor yang utama. Drug database dengan menganalisa text summary data dan
vendor utama termasuk Thomson IDdb, Nielson articles (lihat gambar). Banyak informasi
IMS Health, WolterKluwer Adis, dan penting dan berguna yang disimpan dalam
Pharmaprojects. Tiap-tiap database mempunyai bentuk text. Tantangan disini menjadi
sedikitnya lebih dari 15,000 obat dari berbagai bagaimana jalan membandingkan 2 ustructured
dunia. Sebagai benchmark, hasil terbaik text yang berbeda dan bagaimana kita bisa
menghasilkan sekitar 60% “matching”! menilai level kesamaan dua text tersebut.
Contohnya, Text A lebih mirip dengan Text B,
7
dibandingkan dengan Text A dan Text C. [6] Freitag, D. & Kushmerick, N. (2000).
Kegiatan riset saya masih dalam tahap awal Boosted wrapper induction. AAAI-00
disini. Saya condong mengunakan text (Austin), pp. 577-583.
summarization berdasarkan kata-kunci dengan [7] Line Eikvil: Information Extraction from
dibantu oleh pengunaan ontology. World Wide Web - A Survey Rapport Nr.
945, July, 1999. ISBN 82-539-0429-0
[8] H. Cunningham. Information Extraction: a
5 Konklusi User Guide (revised version). Department
Dengan terus meningkatnya jumlah “digitized of Computer Science, University of
textual media” di Internet dan di organisasi Sheffield, May, 1999
menunjukan nyatanya tantangan akan [9] Fabrizio Sebastiani. Machine learning in
“overload” akan informasi dan pentingnya automated text categorization. ACM
bidang text mining. Kita memerlukan tak hanya Computing Surveys, 2002
text mining system, tapi juga knowledge [10] Lewis D D, 1992. Representation and
management system di bantu dengan robust text Learning in Information Retrieval. Ph.D.
mining software untuk mengekstrak, dissertation, University of Massachusetts.
memprocess, me-mine, mengorganisasi, dan [11] Tzeras,K.and Hartmann,S.1993.Automatic
memonitor textual data dalam jumlah besar. indexing based on Bayesian inference
Solusi text mining harus lebih dari sekedar networks. In Proceedings of SIGIR-93,16th
efektif search, akurat natural language processor, ACM International Conference on
dan text summization. Design dan pembuatan Research and Development in Information
text mining tool harus mengikutsertakan tidak Retrieval (Pittsburgh, US, 1993), pp.22 –34.
hanya untuk peneliti, tapi juga penguna dari [12] Mladenic, D., Grobelnik, M. (1998)
bidang dan level tehnical yang beragam. Text Feature selection for clasification based on
mining harus memiliki kemampuan untuk text hierarchy. Working notes of Learning
menemukan fakta dan relationship yang baru from Text and the Web, Conference on
yang sulit di dapat tanpa text mining, “A real Automated Learning and Discovery
Text Mining” [1]. CONALD-98.
[13] Giuseppe Attardi, Antonio Gullí and
Referensi Fabrizio Sebastiani, Automatic Web Page
Categorization by Link and Context
[1] Marti A. Hearst. Untangling Text Data
Analysis. In Proceedings of THAI-99, 1st
Mining. Proceeding of ACL’99 Maryland,
European Symposium on Telematics,
June 20-26, 1999
Hypermedia and Artificial Intelligence, pp.
[2] Dunja Mladenic and Marko Grobelnik.
105-119, 1999.
Text Mining: What if your data made of
[14] Robert E. Schapire and Yoram Singer.
words. ECML/PKDD-2001, Freiburg,
BoosTexter: A boostingbased system for
Germany, September 7, 2001
text categorization. Machine Learning,
[3] Jürgen Franke, Gholamreza Nakhaeizadeh,
39(2/3):135-168, 2000.
and Ingrid Renz. Text Mining: Theoretical
[15] Gómez Hidalgo, J.M. Evaluating Cost-
Aspects and Applications
Sensitive Unsolicited Bulk Email
[4] M. Craten, D. DiPasquo, D. Freitag, A.
Categorization. ACM Symposium on
McCallum, T. Michell, K. Nigam, and S.
Applied Computing, 2002.
Slattery. 1998. Learning to extract
[16] Wu, M., Michael Fuller, and Ross
symbolic knowledge from the world wide
Wilkinson. Using Clustering and
web. In Proceeding of AAAI.
Classification Approaches in Interactive
[5] Usama Fayyad, Gregory Shapiro, dan
Retrieval. In Information Processing &
Padhraic Smyth, 1996. Knowledge
Management, pp. 459-484, 37(3), 2001
Discovery and Data Mining: Towards a
[17] Baldonado, M.Q.W., and Winograd, T.
Unifying Framework. In Proceeding of The
SenseMaker: An Information-Exploration
Second International Conference on
Interface Supporting the Contextual
Knowledge Discovery and Data Mining,
Evaluation of a User's Interest, In
pages 82-88.
proceedings of CHI '97, Atlanta, GA
8
[18] A.K. Jain, M.N. Murty and P.J. Flynn. Data Shared Task: Chunking. In: Proceedings of
Clustering: A Review. ACM Computing CoNLL-2000 and LLL 2000, Lisbon,
Surveys, Vol. 31, No. 3, September 1999 Portugal, 2000
[19] Rüger, S.M. and S E Gauch: Feature [28] Jacques Vergne. Trends in Robust Parsing.
Reduction for Document Clustering and A tutorial presented in Coling 2000
Classification. DTR 2000/8, Department of [29] Hahn, Udo & Mani, Inderjeet (2000). The
Computing, Imperial College London, challenges of automatic summarization. In:
September 2000. Computer, 33 (11), pp. 29-36
[20] Church, K. (1988) “A Stochastic Parts [30] N. Adam, V. Atluri, and I. Adiwijaya,
Program and Noun Phrase Parser for “System Integration in Digital Library,”
Unrestricted Text,” Second Conference on The Special Section of System Integration -
Applied Natural Language Processing, Communication of the ACM, 2000
Austin, Texas, pp. 136-143 [31] N. Adam, I. Adiwijaya, and Y. Chung,
[21] D. Cutting, J. Kupiec, J. Pedersen, and P. “The Implementation of a DW System in a
Sibun. A Practical Part-of- Speech Tagger, Heterogeneous Environment”,
Proceedings of the Third Conference on International Conference on System
Applied Natural Language Processing, Integration Technology and Applications
April 1992 1997, South Korea
[22] Eric Brill, Transformation-Based Error- [32] Doan AH, Domingos P, Halevy A.
Driven Learning and Natural Language Reconciling schemas of disparate data
Processing: A Case Study in Part of Speech sources: a machine-learning approach. In:
Tagging, Computational Linguistics, Vol Proc ACM SIGMOD Conf, pp. 509–520,
21, No 4, 1995 2001
[23] Christopher D. Manning and Hinrich [33] Doan A, Madhavan J, Domingos P, and
Schütze. 1999. Foundations of Statistical Halevy A. Learning to map between
Natural Language Processing. Cambridge, ontologies on the semantic web. In The
MA: MIT Press Eleventh International WWW Conference,
[24] Ted Pedersen. Evaluating the Effectiveness Hawaii, US, 2002
of Ensembles of Decision Trees in [34] Flesca, S, Manco, G,,Masciari, E, Pontieri,
Disambiguating Senseval Lexical Samples. L, Pugliese, A. Detecting Structural
Proceedings of the Workshop on Word Similarities between XML Document. Fifth
Sense Disambiguation: Recent Successes International Workshop on the Web and
and Future Directions. July 11, 2002, Databases (WebDB 2002) Madison,
Philadelphia Wisconsin - June 6-7, 2000.
[25] M. Stevenson, Y. Wilks. Combining Weak [35] Gal, A Modica, G and Jamil HM.
Knowledge Sources for Sense Improving web search with automatic
Disambiguation. Proceedings of the ontology matching. Submitted for
International Joint Conference for publication. Available upon request from
Artificial Intelligence (IJCAI-99). avigal @ie.technion.ac.il, 2003
Stockholm. (1999) [36] S. Nestorov and S. Abiteboul and R.
[26] G. Salton and M. J. McGill. Introduction to Motwani, “Inferring Structure in
Modern Information Retrieval, McGraw Semistructured Data,” Proceedings of the
Hill Com- puter Science Series, New York, Workshop on Management of
1983 Semistructured Data, May 1997
[27] Erik F. Tjong Kim Sang and Sabine [37] Wikipedia online
Buchholz, Introduction to the CoNLL-2000 http://www.wikipedia.com

TM (Text Summarization) PDF

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

TM (Text Summarization) PDF

Diunggah oleh

Hak Cipta:

Format Tersedia

Kolokium bersama komunitas datamining Indonesia & soft-computing Indonesia, Sep’06

Text Mining dan Knowledge Discovery

1 Introduksi librarian seperti di era sebelumnya. Pencarian

learning. Banyak teknik-teknik information Disambiguation adalah activitas untuk

Anda mungkin juga menyukai