Ekstraksi Teks Mining Dengan Metoda Sequence Matching

Ekstraksi Data Akademik Pada Text-Mining Dengan
Metoda Sequence Matching (SM)

1)
2)
Sumijan
Julius Santony
1,2)
Jl. Raya Lubuk Begalung, Padang, Sumatera Barat,

Email : 1) soe@upiyptk.org / 2)juliussantony@yahoo.co.id
1,2)
Jl. Raya Lubuk Begalung, Padang, Sumatera Barat, Universitas Putra Indonesia YPTK
Abstrak Pesatnya pertumbuhan repositori data teks menyulitkan orang-orang untuk

mengakses informasi yang dibutuhkan dengan cara yang efesien dan efektif.
Permasalahan ini muncul sebagai dampak banyaknya informasi yang terintegrasi
dalam teks yang kurang terstruktur. Akibatnya, komputer tidak dapat melakukan
interpretasi dengan mudah. Dalam makalah ini, disajikan Ekstraksi data akademik pada
text-mining dengan metoda sequence matching dalam peranannya untuk menjawab
kebutuhan masa depan dalam hal penyediaan informasi yang bermanfaat dan mudah
diakses oleh khalayak akademik dan umum. Sebagai contoh Aplikasi sistem informasi
akademik, dibahas mengenai informasi akademik seperti krs online, SPMB online, KHS
online, jurnal online, library online dan masih banyak lagi kegiatan akademik yang
online. Proses ekstraksi data akademik pada text mining dengan menggunakan teknik
SM untuk menemukan dan mengekstrak informasi dari database akademik dan seluruh
layanan pada web tersebut. Dilakukan pengujian dengan parameter precision, recall
serta f-measure untuk mengevaluasi kecocokan informasi yang dibutuhkan, Sehingga
didapatkan performansi kinerja dari sisfokampus sesuai dengan relevansi informasi
yang dibutuhkan. Penggunaan metoda tersebut mempercepat pencarian data dan
layanan web terkait informasi akademik dan non akademik. Tantangan dari web
database akademik mining adalah jumlah data atau volume data yang
pertambahannya semakin lama semakin banyak untuk mempermudah pengaksesan
dengan pengembalian data baik online maupun offline dari source text mining dari web
data mining. Penelitian ini telah memberikan solusi bahwa dengan ekstrasi data
akademik pafa text mining terintegrasi dengan metoda SM memperlancar proses
pencarian dan pengaksesan informasi akademik baik yang tidak tersetruktur (informasi
dari portal) bersifat portal, dan tersetruktur (Informasi dari aplikasi).
Kata Kunci: text-mining, ekstraksi informasi, Sequence Matching, ekstraksi web dat,
data mining,
1. PENDAHULUAN
Text mining menjadi kunci penting untuk menjawab permasalahan di masa depan
mengenai pengaksesan informasi yang bermanfaat dengan jumlah data yang terus
mengalami peningkatan.
Dalam makalah ini, diterapkan sistematika sebagai berikut. Bagian
pertama akan membahas pendahuluan, yaitu mengenai latar belakang dan
sistematika penulisan makalah. Selanjutnya, akan dibahas mengenai penelitian
terkait yang telah dilakukan sebelumnya. Di bagian berikutnya, akan dijelaskan
mengenai tahap-tahap yang digunakan metoda sequence matching dalam ekstraksi
data pada text mining. Pada bagian keempat, akan dibahas mengenai aplikasi text
mining dalam biologi sebagai ilmi interdisipliner. Sebagai penutup, akan disajikan
kesimpulan dan arah

dari review makalah.
pengembangan
di
masa
depan
yang
diperoleh
2. PENELITIAN TERKAIT
Dalam bagian ini dipaparkan mengenai penelitian-penelitian yang telah dilakukan
sebelumnya. Pada bagian 2.1 dibahas mengenai penelitian yang telah dilakukan
sebelumnya terkait dengan ekstraksi data mining secara umum, sedangkan pada
bagian 2.2 dibahas mengenai penelitian yang telah dilakukan sebelumnya terkait
dengan ekstraksi data dengan metoda sequence matching. Kedua penelitian
tersebut memiliki peran penting dalam menyiapkan data setengah-jadi yang
kemudian akan diolah lebih lanjut tentang ekstrakasi data akademik pada text
mining untuk memperoleh informasi yang dibutuhkan.
2.1 Penelitian Terkait Ekstrasi Data Mining
Web mining merupakan penggunaan teknik data mining untuk menemukan dan
mengekstrak informasi dari dokumen dan layanan web. Tantangan dari web mining
adalah jumlah informasi yang banyak untuk mempermudah akses dengan
pengembalian data baik online maupun offline dari source teks dari web . Penelitian
web mining terintegrasi dengan berbagai macam penelitian disiplin ilmu
pengetahuan lainnya seperti DataBase (DB), Data Mining, Information Retrieval (IR),
Machine Learning (ML), Natural Language Process (NLP). Web mining dapat dibagi
menjadi tiga kategori utama, yaitu: content mining, usage mining, dan structure
mining.
Makalah ini memfokuskan kepada web content mining. Web content mining yaitu
merupakan aplikasi untuk me-mining, mengekstrak dan menggabungkan data,
informasi dan pengetahuan yang bermanfaat dari isi halaman web. Data web content
terdiri dari:
1. Unstructured data (teks bebas).
2. Semi structured data (dokumen HTML).
3. More structured data (data pada table, DB yang dihasilkan halaman HTML).
Pada intinya web content mining mendeskripsikan penemuan informasi yang
berguna dari data, dokumen atau isi web pada halaman web. Ada dua cara pandang
yang berbeda dalam melakukan penelitian mengenai web content mining, yaitu :
1. Cara pandang database: cara pandang ini mencoba untuk memodelkan data pada
web dan mengintegrasikannya agar dapat digunakan sebaik mungkin.
2. Cara pandang information retrieval: cara pandang ini membantu atau
memperbaiki kualitas informasi yang ditemukan dalam web atau dengan kata lain
menyaring informasi yang relevan.
Web content mining

kadangkala disebut juga
web text mining karena
isi teks lebih sering
digunakan
sebagai
penelitian.
Kegunaan
web content mining pada World Wide Web antara lain menemukan informasi yang
relevan dan menciptakan pengetahuan dari informasi yang ada, sehingga informasi
dalam jumlah yang banyak di situs web tetapi mudah untuk mengaksesnya.
Informasi tersebut berupa semi-structured dengan kode HTML, yang mana biasanya
halaman web berisi campuran informasi seperti main content (isi utama), iklan,
navigation panel, copyright notice, logo, dan lain-lain. Sedangkan pada makalah ini
akan memanfaatkan tag HTML yang akan di-mining untuk digunakan dalam proses
ekstraksi.
3. Web Mining
Perkembangan dan terdistribusinya informasi di Internet merupakan suatu
pengetahuan yang sangat bernilai. Dengan semakin pesatnya jumlah informasi
yang tersedia, maka dibutuhkan suatu tool bagi pengguna untuk mendapatkan
informasi tertentu secara efektif dan efisien. Meskipun mesin pencari atau search
engine dapat menelurusi dan mencari informasi yang diinginkan, tetapi kadang kala
dibutuhkan tool yang dapat mengambil isi (content) dari sebuah halaman Web yang
diperoleh. Untuk itu penelitian dan pengembangan teknologi untuk menggali
informasi ini terus berkembang. Web mining adalah suatu bidang penelitian yang
sangat berkembang saat ini, meskipun saat ini belum diperoleh kesepakatan
mengenai definisi Web mining itu sendiri. Web mining adalah sebuah integrasi
beberapa teknologi, seperti data mining, statistik, informatika, dan sebagainya
(Jicheng, 1999). Web mining adalah suatu aktifitas untuk menidentifikasi pola p
yang terkandung dalam sebuah koleksi dokumen C, yang dapat dituliskan sebagai
pemetaan : C p . Definisi tersebut di atas menunjukkan bahwa Web mining
mempunyai kemiripan dengan data mining. Tetapi Web mining memiliki karakteristik
khusus, antara lain adalah sumber yang digunakan adalah dokumen web. Selain itu
pola yang dapat diperoleh dari Web mining adalah isi dari dokumen web atau
struktur dari Web, sebab sebuah dokumen Web berisi informasi dan hyperlink.
Selain itu Web mining mengolah data yang bersifat semi terstruktur sedangkan data
mining mengolah data yang lebih terstruktur seperti basis data. Pencarian informasi
Web adalah sebuah proses untuk memperoleh himpunan bagian dokumen S yang
sesuai dengan query q tertentu dari kumpulan dokumen C, atau dapat dituliskan
sebagai berikut: : ( C , q ) S . Pencarian informasi Web mempunyai tujuan yang
berbeda dengan Web mining. Web mining adalah proses lebih lanjut dari pencarian
informasi Web. Meskipun demikian keduanya saling melengkapi.
Web mining
Structure mining
Content mining
Text
mining
Multimedia
mining
External
Structure
mining
Internal
Structure
mining
Gambar 2. Penggolongan Web Mining
URL
mining
Perbedaan informasi dalam Web menumbuhkan variasi dari Web mining.

Berdasarkan tipe sumber (source), Web mining secara umum dapat dibagi menjadi
dua bagian utama, yaitu Web content mining dan Web structure mining. Bagian
pertama akan lebih berkaitan dengan proses ekstraksi pengetahuan
dari
kandungan dokumen Web, sedangkan bagian kedua lebih condong kepada
masalah pengetahuan akan organisasi dan link dari dokumen Web. Web structure
mining dapat dibagi lagi menjadi tiga bagian, yaitu struktur eksternal (hyperlink antar
dokumen), struktur internal dan URL mining. Sedangkan Web content mining dibagi
menjadi text mining dan multimedia mining. Dalam text mining tercakup masalah file
teks maupun dokumen HTML. Meskipun multimedia mining sangat menarik
perhatian orang banyak, text mining adalah lebih mendasar dan penting, sebab teks
adalah pembawa informasi utama. Penggolongan Web mining ini selengkapnya
dapat dilihat pada Gambar 1.
Beberapa aplikasi dalam Web text mining adalah kategorisasi teks, perangkuman
informasi, analisis asoisiasi, dan peramalan. Penjelasan lebih lanjut aplikasi tersebut
adalah sebagai berikut:
a. Kategorisasi teks
Pada aplikasi ini diberikan sekumpulan dokumen C yang kemudian akan
dikelompokkan ke dalam kelompok tertentu. Hal ini akan memudahkan
pengguna untuk melakukan pencarian dokumen berdasarkan kelompok
tertentu.
b. Perangkuman informasi
Pada aplikasi ini diberikan sekumpulan dokumen C yang kemudian masingmasing akan diekstrak untuk diambil informasi tertentu untuk kemudian
digabungkan menjadi sekumpulan data sehingga dapat dibangun satu basis
data informasi tertentu.
c. Analisis asosiasi
Pada aplikasi ini yang dilakukan adalah melakukan ekstraksi hubungan antara
tahapan dan kata dalam sebuah dokumen.
d. Prediksi
Aplikasi ini merupakan langkah lebih lanjut dari aplikasi perangkuman
informasi. Aplikasi ini setelah melakukan ekstraksi terhadap dokumen akan
melakukan prediksi berdasarkan infdormasi atau data yang dia peroleh.
Pada dasarnya metode dalam Web mining ini mirip dengan mining file teks biasa,
tetapi harus ditambah untuk memisahkan antara teks informasi dengan teks sebuah
tag HTML yang telah dijelaskan pada bagian sebelumnya.
3. Ekstraksi Web Data

Halaman Web yang dibangun menggunakan berbasis teks Bahasa mark-up (HTML
dan XHTML), dan sering mengandung kekayaan data yang berguna dalam bentuk
teks. Namun, Halaman web yang paling dirancang untuk manusia pengguna akhir dan
tidak untuk kemudahan penggunaan otomatis. Karena itu, alat kit yang mengikis
konten web diciptakan. Sebuah web scraper sebuah API untuk mengekstrak data dari
sebuah situs web. Kami membantu Anda untuk membuat semacam API yang
membantu Anda untuk mengikis data yang sesuai kebutuhan Anda. Kami
menyediakan web berkualitas dan terjangkau aplikasi Data Ekstraksi
A. Pengumpulan Data
Biasanya, transfer data antar program dilakukan dengan menggunakan struktur data
cocok untuk pemrosesan otomatis oleh komputer, bukan orang. Format dan protokol
pertukaran seperti biasanya kaku terstruktur, terdokumentasi dengan baik, mudah
diurai, dan menjaga ambiguitas untuk minimum. Sangat sering, transmisi ini bukan
manusia-dibaca sama sekali. Itulah mengapa elemen kunci yang membedakan data
yang menggores dari parsing biasa adalah bahwa output yang tergores dimaksudkan
untuk ditampilkan ke pengguna akhir.
B. Email Extractor
Sebuah alat yang membantu Anda untuk mengekstrak id email dari sumber terpercaya
otomatis yang disebut extractor email. Pada dasarnya layanan fungsi mengumpulkan
kontak bisnis dari berbagai Halaman Web, file HTML, file teks atau format lainnya
tanpa id email duplikat.
C. Layar scrapping
Scraping layar disebut praktek membaca data teks dari layar tampilan komputer
terminal dan mengumpulkan data visual dari sebuah sumber, bukan parsing data di
web gesekan.
Ekstraksi informasi web merupakan masalah mengekstraksi item-item

informasi target dari halaman-halaman Web. Dua masalah umum: Ekstraksi
informasi dari teks bahasa natural, Ekstraksi data terstruktur dari halamanhalaman web, dengan Program yang mengekstrak data terstruktur dari
halaman web disebut wrapper.
Dalam data extraction ini kita akan menerapkan sebuah teknik yang
dinamakan dengan partial tree alignment , yang kunci pokoknya adalah
bagaimana mencocokkan corresponding data item atau field dari data semua
data records. Ada dua langkah penting dalam data extraction:
1. Membuat satu root tag tree untuk masing-masin data record :
Setelah semua data record telah teridentifikasi, sub-trees pada masing data
records di susun ulang ke dalam single tree .Masing-masing data record
ada kemungkinan memiliki lebih dari satu sub-trees dari sebuah original tag
tree pada sebuah halaman , dan masing-masing data record mungkin tidak
memiliki kesamaan (Case 1 dan Case 2 pada kasus Pengidentifikasian data
record). Sub-step ini diperlukan untuk menyusun single tree untuk masingmasing data record(sebuah root node buatan yang dapat di tambah setiap
saat).
2. Partial tree aligment: tag trees dari semua data dalam masing-masing data
region di aligned menggunakan metode partial alignment berdasarkan tree
matching
4. Text Mining
Text mining (biasa dikenal juga dengan text data mining atau penemuan pengetahuan)
dalam database tekstual adalah semi-otomatis proses ekstraksi pola (informasi yang
berguna dan pengetahuan) dari sumber data yang tidak terstruktur dalam jumlah yang
besar. Sedangkan data mining adalah proses identifikasi valid, novel, yang berpotensi
berguna, dan pada akhirnya dapat dipahami pola data yang tersimpan dalam database
yang terstruktur, dimana data diorganisir dalam catatan terstruktur dengan kategori,
ordinal, atau variabel yang terus menerus. Text mining mempunyai tujuan dan
menggunakan proses yang sama dengan data mining, tetapi text mining input proses
adalah koleksi data file tidak terstruktur misalnya Word dokumen, PDF file, text
excerpts,XML file, dll sedangkan data mining data file yang terstruktur dalam database.
Manfaat text mining sangat jelas ketika jumlah data tekstual yang dihasilkan sangat
besar, misalnya penelitian akademis (artikel penelitian), hukum (order pengadilan), dll.
Area lain dimana proses otomatisasi dari text tidak terstruktur mempunyai pengaruh
yang besar dalam komunikasi elektronik dan e-mail. Text mining tidak hanya dapat
digunakan untuk mengklasifikasi dan memfilter junk e-mail, tetapi dapat juga
digunakan untuk otomatisasi prioritas e-mail. Natural Language Processing (NLP)
adalah komponen yang penting dalam text mining dan subbidang dari kecerdasan
buatan (artificial intelligence) dan komputasi linguistik. NLP mempelajari masalah
pemahaman bahasa alami manusia, dengan mengkonversi penggambaran bahasa
manusia (seperti dokumen tekstual) ke dalam representasi formal lebih (dalam bentuk
data numeric dan simbolik) yang lebih memudahkan program computer untuk
memanipulasi. Tujuan dari NLP adalah melebihi manipulasi teks sintaks-driven (yang
sering disebut penghitung kata) untuk pemahaman yang benar dan pengolahan
bahasa alami yang mempertimbangkan keterbatasan gramatikal dan sematik sebagus
konteksnya. NLP berhasil diterapkan melalui program computer untuk memproses
bahasa secara otomatis, misalnya mesin penerjemah dan meringkas otomatis.
Proses Text Mining:
Ada beberapa tool yang dapat digunakan untuk text mining. Software yang berbayar
misalnya ClearForest dan IBM Intelligent Miner Data Mining Suit. Sedangkan software
yang gratis misalnya GATE, LingPipe, S-EM (Spy-EM), dan Vivisimo.
5. Web Mining
Web mining merupakan penerapan teknik data mining terhadap web dengan tujuan
untuk memperoleh pengetahuan dan informasi lebih dari dalam web. Web mining
dapat dikategorikan ke dalam tiga ruang lingkup yang berbeda, yaitu web content
mining, web structure mining dan web usage mining (Srivastava et al., 2000).
a) We
b
Content Mining mengacu pada ekstraksi informasi yang berguna dari halaman
web. dokumen dapat diekstrak dalam beberapa format terbaca-mesin sehingga
teknik otomatis dapat menghasilkan beberapa informasi tentang halaman web.
Web crawler digunakan untuk membaca isi sebuah situs web secara otomatis.
informasi yang dikumpulkan dapat meliputi karakteristik dokumen mirip dengan
apa yang digunakan dalam text mining, tetapi bisa termasuk konsep tambahan,
seperti hirarki dokumen. Web Content Mining juga dapat digunakan untuk
meningkatkan hasil yang dihasilkan oleh mesin pencari.
b) Web Structure Mining adalah proses penggalian informasi yang berguna dari link
embedded dalam dokumen web. Digunakan untuk mengidentifikasi otoritatif
halaman dan hub, yang merupakan landasan dari algoritma page-rank
kontemporer yang penting bagi mesin pencari populer seperti Google dan Yahoo!.
Analisis link sangat penting dalam memahami hubungan timbal balik antara
sejumlah besar halaman web, yang mengarah ke pemahaman yang lebih baik
dari komunitas web tertentu, klan, atau klik.
c) Web Usage Mining adalah pengambilan informasi yang berguna dari data yang
dihasilkan melalui kunjungan halaman web dan transaksi. Masand et al. (2002)
menyatakan bahwa setidaknya tiga jenis data yang dihasilkan melalui kunjungan
halaman web:
(i)
Secara otomatis data yang tersimpan dalam server access log, referrer log,
agent log, dan cookie client-side
(ii)
Profil Pengguna
(iii)
Metadata, seperti atribut halaman, atribut konten, dan data penggunaan.
Aplikasi Web mining menurut Nasraoui (2006):

a)
b)
Menentukan nilai hidup/ lifetime value klien

Desain strategi cross-marketing seluruh produk
c)
Evaluasi kampanye promosi
d)
Target iklan elektronik dan kupon pada kelompok pengguna didasarkan pada
pola akses pengguna
e)
Memprediksi perilaku pengguna dengan mempelajari ketentuan sebelumnya

dan profil pengguna
f)
Menyajikan informasi yang dinamis untuk pengguna berdasarkan kepentingan

mereka dan profil
2.2. Penelitian Terkait Ekstraksi Text Mining

Meskipun identifikasi entitas dari teks telah cukup membantu untuk mendapatkan
informasi lebih lanjut, namun inferensi terhadap isi dokumen membutuhkan lebih dari
sekedar identifikasi entitas. Konteks dari entitas dalam sebuah dokumen dapat
diturunkan dari analisis relasi antar-entitas dalam dokumen. Penelitian mengenai relasi
ini sangat membantu dalam penerapan sistem ekstraksi informasi dan
penjawaban query akademik yang akan dibahas lebih lanjut pada bagian selanjutnya.
Beberapa pendekatan yang telah digunakan untuk melakukan ekstraksi relasi antraa
lain sebagai berikut [2].
(i) Pendekatan co-occurence-based
Dengan pendekatan ini, setelah entitas biologi diekstrak dari dokumen, relasi
diantaranya kemudian diturunkan dengan asumsi bahwa 2 entitas dalam kalimat
atau abstrak yang sama dinyatakan berhubungan. Negasi dalam teks tidak
diperhitungkan.
(ii) Pendekatan linguistic-based
Pendekatan ini umumnya menggunakan teknik shallow parsing untuk mengetahui
lokasi kata kerja atau kata benda dalam suatu dokumen. Rule dikembangkan
secara spesifik untuk mengekstrak kata-kata latar dari term yang didefinisikan
sebelumnya dan memformatnya sebagai relasi.
(iii) Pendekatan campuran
Pendekatan campuran ini dapat berupa mekanisme unsupervised learning untuk
melakukan ektraksi relasi dari konsep ilmu tertentu. Sebagai contoh, dilakukan
ekstraksi relasi antara konsep dalam biologi molekular dari abstrak jurnal MEDLINE
yang merupakan bagian dari corpus GENIA [2]. Untuk tiap kalimat yang
mengandung 2 entitas biologi, graf berarah dibuat untuk menunjukkan
ketergantungan antara kedua entiti tersebut berdasarkan analisis linguistik.
Meskipun akan terdapat banyak graf berarah dari ekstraksi awal corpus, hanya
beberapa graf signifikan saja yang akan diidentifikasikan sebagai relasi biologi.
3. TAHAP-TAHAP DALAM TEXT-MINING DAN SEQUENCE MATCHING
Jika proses data mining melakukan penemuan pengetahuan dari data yang
sifatnya terstruktur, maka text mining menemukan dan melakukan ekstraksi
pengetahuan dari data yang tidak terstruktur. Text mining melibatkan 3 aktivitas
utama : (i) temu-balik informasi, yang mengumpulkan teks-teks yang relevan
dengan kebutuhan, (ii) ekstraksi informasi, yang mengidentifikasi dan
mengekstrak beberapa tipe spesifik dari informasi yang dicari, dan (iii) data
mining, yang menemukan asosiasi antara potongan-potongan informasi yang
diekstrak dari beberapa teks berbeda [1].
3.1
Tahap Temu-Balik Informasi

Tahap temu-balik informasi merupakan aktivitas untuk menemukan dokumen
yang dapat menjawab kebutuhan informasi dengan menggunakan bantuan
indeks. Hampir seluruh komputer pada saat ini menggunakan sistem temu-balik
informasi secara frekuentif, seperti mesin pencari GoogleTM. Para pengguna yang
memanfaatkan jasa mesin pencari ini harus menghadapi permasalahan yang
sama : membaca dokumen yang sangat banyak untuk kemudian menemukan
fakta yang dan menentukan apakah infornasi yang dibutuhkan terdapat di
dalamnya.
Selain mesin pencari untuk tujuan yang tidak spesifik, telah banyak pula terdapat
perangkat temu-balik informasi yang telah didesain secara spesifik untuk
melakukan query terhadap basis data penerbit jurnal-jurnal yang berkaitan
dengan ilmu tertentu. Beberapa contohnya antara lain sebagai berikut
Textpresso, Query Chem, iHOP, dan PubMatrix [1].
3.2 Tahap Ekstraksi Informasi Dengan Sequence Matching (SM)

Untuk melakukan identifikasi dan tabulasi dari fakta yang berada pada dokumen
dalam kuantitas sangat besar, ekstraksi informasi merupakan teknologi yang
sangat relevan untuk menjawab kebutuhan tersebut. Tujuan akhir dari aplikasi
teknologi ini adalah untuk melakukan ekstraksi informasi dari teks tanpa
mensyaratkan end-user perlu membaca teks. Ekstraksi informasi dapat
digunakan untuk mendukung layanan temu-balik fakta atau sebagai tahapan
dalam melakukan text mining berbasiskan teks konseptual.
Tujuan dari sequence matching adalah untuk mencari common part dari halaman
web yang akan diekstrak. Untuk melakukan proses ini, metode sequence
matching mencoba untuk mengadopsi teknik penghitungan string edit distance
atau biasa juga disebut Levenshtein Distance [4]. Operasi yang dilakukan dalam
string edit distance di antaranya adalah insert, delete dan substitute [1]. Maksud
dari edit distance ini sendiri adalah menghitung jumlah minimum dari operasi
insert, delete dan substitution yang dilakukan untuk mengganti string S1 menjadi
S2 [2]. Sebagai contoh, edit distance antara kitten dan sitting adalah 3, nilai
tersebut berasal dari 3 operasi yang dilakukan, yaitu: a. kitten sitten
(substitution 's' untuk 'k') b. sitten sittin (substitution 'i' untuk 'e') c. sittin
sitting (insert 'g' diakhir string)[4].
Algoritma 2, sequence matching ini menggunakan input berupa dua halaman
web yang telah direpresentasikan dalam TSReC. Seperti perhitungan
konvensional string edit distance, algoritma ini juga menggunakan teknik dynamic
programming (baris 03-19). Dynamic programming digunakan karena efisien
dalam pencarian solusi optimal untuk problem yang memiliki banyak overlapping
sub-problem [10]. Berbeda dengan string edit distance yang membandingkan
karakter di dalam string, algoritma ini membandingkan TS di dalam TSReC (baris
11). Jika kedua TS yang dibandingkan memiliki nama tag dan konten teks yang
sama, maka kedua TS tersebut dianggap sama (cocok).
Dalam penelitian ini ada tiga parameter yang digunakan untuk mengetahui tingkat
keberhasilan sistem yang dibangun, yaitu precision, recall, dan FMeasure. Dalam penelitian
ini ada tiga parameter yang digunakan untuk mengetahui tingkat keberhasilan sistem yang
dibangun, yaitu precision, recall, dan F-Measure menurut rujukan (Prof Joydeep Ghosh dan
Prof Dik Lee, 2009). Kebutuhan informasi yang diterjemahkan ke dalam query Relevansi
dinilai relatif terhadap informasi tidak perlu query. Misalnya, Informasi yang diutuhkan: Saya
mencari informasi apakah IPK mahasiswa jurusan Sistem Informasi dan Teknik Informatika
lebih baik dari program studi Sistem Komputer dan Psikologi. Mengevaluasi apakah
dokumen yang terkait dengan database akademik memenuhi kebutuhan informasi, apakah
ia memiliki IPK yang relevan atau tidak relevan. Untuk itu IR (Information Retrievel) menguji
performansi kinerja ekstraksi web data mining dimana patokan yang digunakan seperti
terlihat pada Gambar 10a. dan 10b.
3.3. Precision, Recall, dan F-Measure
Precision merupakan perbandingan dari pengembalian dokumen yang relevan. Bisa

dikatan bahwa precision merupakan pecahan atau fraction dari dokumen yang didapatkan
yang relevan dari informasi yang diinginkan sesuai rujukan (Prof Joydeep Ghosh dan Prof Dik
Lee, 2009).
Pr ecission( P)
(tp)
(tp fp )
..( 1 )
Recall merupakan perbandingan dari dokumen relevan yang sudah dikembalikan. Atau
bisa dikatakan bahwa recall merupakan fraction dari dokumen yang relevan berdasarkan
query atau permintaan yang sukses dijawab atau dikembalikan. Gambar 2 menyajikan
illustrasi dari Precision dan Recall.
Re call ( R)
(tp)
(tp fn)
..( 2 )
F-Measure didefinisikan sebagai kombinasi dari recall dan precision dengan bobot yang
seimbang, rumusan dari F-Measure adalah sebagai berikut :
F Measure( F )
(tp tn)
(tp fp fn tn)
..( 3 )
3.3 Tahap Data Mining

Tahap data mining digunakan untuk menemukan asosiasi yang tidak ditemukan
sebelumnya dari antara fakta-fakta yang telah diekstrak oleh tahapan sebelumnya.
Tahap ini merupakan tahapan yang membungkus integrasi antara text
mining dan data mining. Kebanyakan teknik data miningyang diterapkan pada biologi
menggunakan asumsi bahwa data yang ada merupakan data biologi yang telah
terstruktur dengan baik, tidak seperti data tekstual tak terstruktur yang digunakan
dalam teknik text mining. Data tekstual tak terstruktur yang telah digunakan untuk
meningkatkan performansi hasil PSI-BLAST (position spesific iterated BLAST), dan
pencarian
homolog
sekuensial
telah
berhasil
mengintegrasikan text
mining dengan data mining untuk keperluan klasifikasi fungsional berbasis sekuens
dari protein dengan menggunakan metodesupervised machine-learning. Akan tetapi,
karena cluster tersebut masih relatif sedikit yang melalui tahap validasi, text
mining masih digunakan sebagai satu tahapan maju dari clusteringekspresi gen dan
menginterpretasikan cluster tersebut melalui asosiasi dengan literatur dari penerbit.
4. TEXT-MINING DALAM BIOLOGI SEBAGAI ILMU INTERDISIPLINER
4.1 TEXT MINING DALAM PEMBUATAN HIPOTESIS
Biologi merupakan salah satu contoh bidang ilmu yang menunjukkan pergeseran
kecenderungan pengetahuan sains dari cara berpikir yang digerakkan oleh hipotesis
ke arah cara berpikir terintegrasi yang bersifat holistik, yaitu memadukan hipotesis
dengan data. Data mengenai ilmu pengetahuan interdisiplin seperti biologi dapat
ditemui dalam bentuk yang sangat beragam, seperti data terstruktur yang berasal
dari basis data, data eksperimen, atau bahkan data tak terstruktur yang berasal dari
teks bebas. Jumlah data tekstual yang bersifat tak terstruktur mengalami
peningkatan yang sangat pesat hingga sangat sulit untuk menemukan pengetahuan
dan membuat hipotesis sains tanpa penggunaan teknologi akstraksi pengetahuan,
yang sangat bertumpu pada teknik data mining.
Dalam disiplin ilmu dengan data yang melimpah namun kurang berisi dalam hal
hipotesis di dalamnya (seperti data gen fungsional dan biomedik), metode sains
deduktif sulit untuk dipertahankan karena tidak dapat memberikan perkembangan
terakhir dari ilmu pengetahuan tertentu dengan cepat. Untuk itu, pada saat ini
penemuan pengetahuan dengan metode induksi yang digerakkan oleh data
mengalami perkembangan yang pesat. Ciri khas metode ini adalah rapid
mining kandidat hipotesis dari literatur-literatur, yang kemudian diuji dan divalidasi
secara subsekuens dengan data eksperimen yang tersedia [1].
Dengan metode tersebut dapat dibuat koneksi antara beberapa argumen yang
nampak terpisah dan tidak memilki korelasi apapun. Beberapa koneksi dari jurnaljurnal dan informasi penerbit MEDLINE yang dibuat dengan metode ini antara lain
sebagai berikut: (i) keterhubungan antara penyakit migraine dan defisiensi
magnesium, yang telah divalidasi secara subsekuens melalui eksperimen, (ii)
keterhubungan antara indomethacin dan gangguan Alzheimer, (iii) serta
keterhubungan antara Curcuma longa dan gangguan retina. Dengan menggunakan
teknik yang sama pula dan dengan berdasar kepada bukti literatur, dapat diberikan
saran mengenai pemberian thalidomide untuk penanganan beberapa penyakit,
seperti hepatitis C kronis dan gangguan pankreas akut [1].
Pembuatan hipotesis dengan text mining dilakukan berdasarkan fakta bahwa
kemungkinan adanya keterhubungan atau asosiasi antara entitas atau fakta yang
terpisah satu sama lain dapat terjadi. Kemungkinan-kemungkinan ini dimunculkan
dan dipadukan dengan data-data yang ada, sehingga dapat menghasilkan informasi
yang berguna.
4.2 TEXT
MINING DALAM
SISTEM
PENJAWABAN QUERYBIOLOGI
EKSTRAKSI
INFORMASI
DAN
Untuk memperoleh pemahaman yang lebih mendalam mengenai sistem ekstraksi

informasi biologi ini, dibahas secara spesifik mengenai salah satu contohnya, yaitu
BIEQA : Biological Information Extraction and Query Answering. BIEQA secara
khusus dirancang untuk menerima teks atau dokumen biologi yang telah
diberikan tag secara ontologis sebagai input dan melakukan ekstraksi dari informasi
tersebut mengenai relasi yang menghubungkan dua konsep biologi dalam teks
tersebut. Relasi hasil ekstraksi digunakan untuk membantu pengguna melakukan

ekstraksi informasi dari dokumen teks dengan cara yang lebih efisien. Sistem ini
dibuat khusus dengan menggunakan corpus ontologi GENIA dan bersifat spesifik
untuk jurnal-jurnal yang ada dalam basis data penerbit MEDLINE.
Beberapa aspek unik dari BIEQA antara lain sebagai berikut.
(i) Sistem menggunakan pendekatan yang mengintegrasikan pemrosesan bahasa
alami dan teknik pencocokan pola untuk memperoleh seluruh relasi biologi yang
terdapat dalam sebuahcorpus. Sistem telah dirancang untuk bekerja dengan koleksi
abstrak di mana entitas biologinya telah diberi tag sesuai dengan konsep
ontologinya, bersama dengan ontologi yang menjadi input. Hal ini
menginisiasi pattern mining dengan rangkaian konsep ontologi untuk mengekstrak
relasi database akademik di dalamnya.
(ii) Relasi biner yang telah diekstrak kemudian direpresentasikan dalam bentuk triplet
berurut <Ci, R, Cj>, di mana Ci dan Cj merupakan konsep biologi dan R merupakan
relasi biologi yang diperoleh dari corpus. Seluruh relasi diasosiasikan dengan nilai
keanggotaan fuzzy, berdasarkan frekuensi relatif kemunculan relasi. Seluruh relasi
didefinisikan pada level konseptual untuk memudahkan deskripsinya.
(iii)
Seluruh informasi relevan, seperti nama entitas biologi dan kategori
biologisnya, serta relasi biologi dan kemunculannya, seluruhnya dikumpulkan dalam
sebuah basis data pengetahuan yang terstruktur. Basis pengetahuan ini kemudian
diindeks berdasarkan relasi, entitas, dan konsepnya dengan menggunakan
mekanisme indeks novel.
Secara umum, sistem yang dibahas memiliki 5 modul utama yang memilki peranan
masing-masing yang terintegrasi dalam sistem [2].
(i)
Ekstraktor Entitas
Modul ini menerima masukan berupa abstrak makalah biologi yang telah
mengandung tag dan mengekstrak nama entitas dari teks. Karena entitas dapat saja
diselipkan dalam tag tunggal maupun ganda, maka diperlukan desain rule untuk
melakukan pre-proses dan kemudian mengekstrak entitas biologi dari dokumen teks
yang telah diberi tag.
(i)
Meta Language (ML) Tag Filter dan POS Tagger
Modul ini berfungsi untuk menyaring tag-tag ML dari dokumen input. Dokumen yang
telah
disaring
kemudian
dianalisa
dengan
bantuan
POS
(Part-ofSpeech) Tagger untuk mengubah tiap kalimat ke dalam bentuk semi-terstruktur
berbasiskan konsep.
(ii)
Biological Relation Extractor
Modul ini menggunakan rekord semi-terstruktur yang dihasilkan dari modul

sebelumnya melalui kolaborasi dengan ontologi yang telah didefinisikan
sebelumnya, untuk pertama-tama mengekstrak seluruh komponen informasi dan
seluruh triplet relasi biologi (Ci, R, Cj).
(iii)
Knowledge Base Manager
Modul ini menyimpan koleksi abstrak untuk melakukan ekstraksi informasi yang lebih
efisian dari waktu ke waktu. Di dalamnya terdapat parser dokumen yang menyimpan
lokasi terdapatnya relasi biologi dalam koleksi untuk membuat basis data yang telah
terindeks menurut entitas, konsep, dan relasi.
(iv) Pemroses Query

Modul pemrosesan query menyediakan antar-muka query intelijen yang
memungkinkan pengguna untuk membuat formulasi query pada tingkat spesifikasi
yang berbeda-beda. Queryyang dimasukkan oleh pengguna dapat mengandung
informasi yang sederhana hingga kompleks, dapat meliputi pertanyaan mengenai
eksistensi nama entitas tertentu hingga eksistensi sepasang entiitas atau konsep
yang dihubungkan oleh relasi biologi tertentu.
5. KESIMPULAN
Teknologi text mining dapat diaplikasikan dalam berbagai area ilmu pengetahuan,
termasuk biologi sebagai ilmu interdisipliner. Beberapa pengembangan textmining dalam bidang biologi antara lain pembuatan hipotesis/kesimpulan secara
induktif serta pembuatan sistem ekstraksi informasi biologi untuk identifikasi relasi
dan akses literatur yang relevan.
Beberapa arah pengembangan text-mining untuk menjadi teknologi masa depan
yang dapat membantu perkembangan ilmu pengetahuan antara lain sebagai berikut
[1].
i)
Tersedianya jurnal atau literatur dalam format full-text akan memberikan
signifikansi yang cukup besar dalam performansi text-mining, mengingat masih
banyaknya abstrak yang kekurangan informasi relevan di dalamnya.
ii) Integrasi text mining dengan data mining akan merintis pengembangan aplikasi
yang lebih luas dalam berbagai bidang ilmu pengetahuan teori maupun terapan,
seperti pencarian similaritas struktur kimiawi atau integrasi rekam medis dengan
data gen dan bukti dari literatur untuk kepentingan aplikasi farmasi. Dengan
memadukan aplikasi dengan konsep sistem tersebar, maka akan memberikan lebih
banyak manfaat kepada masyarakat.
iii) Pengembangan konsep text-mining juga dapat dimanfaatkan dalam pembuatan
model berdasarkan litaratur yang ada. Pembuatan model ini dapat diawali dengan
perancangan model kualitatif atau struktural, yang biasanya diturunkan dari
rangkaian gen dan kemudian dapat diintegrasikan dengan bukti yang diturunkan dari
literatur melalui konsep text-mining.
Eksplorasi dan eksploitasi teknik data mining masih berada pada tahap awal
pengembangan, namun telah mencapai kemajuan yang cukup pesat. Teknik ini
diharapkan dapat menjadi alat yang dapat diandalkan oleh para ahli ilmu
pengetahuan di masa depan untuk dapat melakukan ekstraksi informasi
pengetahuan intersisipliner dengan lebih efektif dan efisien, yang pada akhirnya
akan membawa kemajuan yang lebih pesat pada perkembangan ilmu pengetahuan
secara keseluruhan.
6. DAFTAR REFERENSI
[1]
[2]
[3]
[4]
Ananiaduo, Sophia. et al. (2006) Text mining and its appplications in systems
biology.
Abulaish, M. and Dey, Lipika. (2006) Biological relation extraction and query
answering from MEDLINE abstracts using ontology-based text mining.
Cohen, Aaron M. and Hersh, William R. (2004) A survey of current work in
biomedical text mining.
Spasic, Irene. et al. (2005) Text mining and ontologies in biomedicine :
Making sense of raw text.
[5].
[6].
[7].
[8].
[9].
[10].
[11].
[12].
[13].
[14].
[15].
[16].
Turban, Efraim, Ramesh Sharda, Dursun Delen. Decision Support and

Business Intelligence System. Pearson Education.
http://seagate.staff.ugm.ac.id/?p=15
http://www.anvari.net/23_BI/turban_dss9e_ch07.ppt
Caglayan, P., Harrison, C., 1997, Agent SourceBook: A Complete Guide to
Desktop, Internet, and Intranet Agents, John Wiley & Sons, Inc, New York.
Cheong, Fan-Chun, 1996, Internet Agents: Spiders, Wanderers, Brokers, and
Bots, New Riders Publishing, Indianapolis.
Gilbert, D., 1997, Intelligent Agents: The Right Information at the Right Time,
IBM white paper, http://www.networking.ibm.com/iag/iagwp1.html.
Karnik, Neeran, 1999, Security in Mobile Agent System, PH.D. Dissertation,
University of Minessota.
Maes, P., 1994, Agents that Reduce work and Information Overload,
Communications of the ACM, 37(7): page 31-40.
Murugesan, San, 1998, Intelligent Agents on the Internet and Web, IEEE,
page 97 - 102.
Turban, Efraim, Lee, Jae, King, David, Chung, H. Michael, 2000, Electronic
Commerce : A Managerial Perspective, Prentice-Hall, New-Jersey.
Wooldridge, J., Jennings, N.R., 1995, Intelligent agents: Theory and Practice,
The Knowledge Engineering Review,
Wuthrich, B., Cho, V., Leung, S., Permunetilleke, Sankaran, K, Zhang, J., Lam,
W., 1998, Daily Stock Market Forecast from Textual Web Data, Hong Kong.

Ekstraksi Teks Mining Dengan Metoda Sequence Matching

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Ekstraksi Teks Mining Dengan Metoda Sequence Matching

Diunggah oleh

Hak Cipta:

Format Tersedia

Ekstraksi Data Akademik Pada Text-Mining Dengan

Metoda Sequence Matching (SM)

Jl. Raya Lubuk Begalung, Padang, Sumatera Barat,

Abstrak Pesatnya pertumbuhan repositori data teks menyulitkan orang-orang untuk

kesimpulan dan arah

Web content mining

Gambar 2. Penggolongan Web Mining

Perbedaan informasi dalam Web menumbuhkan variasi dari Web mining.

3. Ekstraksi Web Data

Ekstraksi informasi web merupakan masalah mengekstraksi item-item

Metadata, seperti atribut halaman, atribut konten, dan data penggunaan.

Aplikasi Web mining menurut Nasraoui (2006):

Menentukan nilai hidup/ lifetime value klien

Evaluasi kampanye promosi

Memprediksi perilaku pengguna dengan mempelajari ketentuan sebelumnya

Menyajikan informasi yang dinamis untuk pengguna berdasarkan kepentingan

2.2. Penelitian Terkait Ekstraksi Text Mining

Tahap Temu-Balik Informasi

3.2 Tahap Ekstraksi Informasi Dengan Sequence Matching (SM)

3.3. Precision, Recall, dan F-Measure

Precision merupakan perbandingan dari pengembalian dokumen yang relevan. Bisa

3.3 Tahap Data Mining

Untuk memperoleh pemahaman yang lebih mendalam mengenai sistem ekstraksi

tersebut. Relasi hasil ekstraksi digunakan untuk membantu pengguna melakukan

Meta Language (ML) Tag Filter dan POS Tagger

Biological Relation Extractor

Modul ini menggunakan rekord semi-terstruktur yang dihasilkan dari modul

Knowledge Base Manager

(iv) Pemroses Query

Turban, Efraim, Ramesh Sharda, Dursun Delen. Decision Support and

Anda mungkin juga menyukai