Anda di halaman 1dari 6

A.

Pendahuluan Menjalani hidup dalam revolusi informasi menjadi pekerjaan yang sulit karena manusia

tidak dirancang untuk memiliki kemampuan memproses informasi dalam jumlah yang sangat besar. Kita telah mengetahui manfaat computer dalam mempercepat pemsrosesan bilangan, dengan melakukan kalkulasi yang jumlahnya sangat banyak dengan banyak kecepatan yang sangat tinggi. Saat ini, kita mulai mengarahkan computer untuk mencari solusi terhadap salah satu kelemahan manusia, yaitu menggali ke dalam kumpulan informasi yang berlimpah untuk menemukan item-item tertentu yang kita inginkan. Document mining memiliki banyak manfaat di era informasi ini untuk mencari pola-pola di dalam teks-teksyang bias diperoleh secara umum seperti berita misalnya. Berapa banyakkah serangan teroris terjadi pada tahun 1995? Adakah hubungan yang kuat antara gerakan IRA dengan ledakan bom mobil? Apakah perubahan yang sering terjadi dalam manajemen perusahaan akan memberikan keuntungan yang lebih besar? Document mining memiliki potensi untuk mancari pola-pola semacam ini yang tersembunyi di dalam kumpulan data teks yang berlimpah , yang dapat memberikan daya saing terbaik yang dibutuhkan oleh berbagai perusahaan. Document mining (DM) atau Text Mining: Proses menemukan pola-pola tertentu yang diinginkan dari dalam sekumpulan informasi teks yang tidak terstruktur. Document mining merupakan kombinasi dari berbagai teknik mulai dari information extraction,

informationretrieval, natural language processing, dan document summarization dengan metode data mining. Tujuan utama penggunaan document mining adalah mendapatkan pengetahuan (knowledge) yang sebelumnya tersimpan didalam sejumlah kumpulan teks. Tulisan ini akan membahas masalah document mining secara umum dan terbagi menjadi bagian-bagian yang mencakup sejarah dan literaturnya, berbagai teknik yang digunakan, kesamaan, kesamaannya dengan bidang manajemen dokumen yang lain, motivasi riset dan evaluasi yang telah dilakukan. Istilah document mining (DM), text mining(TM), dan knowledge discovery from textual database (KDT) kadang-kadang digunakan secara bergantian namun memiliki makna yang sama.

B.

Literatur Dalam Sejarah Data mining sendiri termasuk bidang yang masih baru sehingga sejarahnya belum begitu

panjang. Jadi tidak mengherankan kalau document mining bahkan memiliki sejarah yang lebih singkat lagi. Kebanyakan literatur tentang document mining berada dibawah lingkup bidang information extraction dan bidang lain yang memiliki keterkaitan secara dekat. Salah satu contoh information extraction yang pertama adalah program FRUMP yang ditulis oleh Gerald De Jong pada tahun 1982. Sistem ini mencakup sejumlah script yang akan membaca suatu jaringan berita, memproses cerita-cerita baru dan berusaha memberikan penjelasan tentang peristiwa-peristiwa yang didapatkan dari artikel-artikel.

C.

Kerangka Text Mining Document mining sangat erat kaitannya dengan bidang information extraction retrieval,

dan sebenarnya bias dibangun dari komponen-komponen yang melakukan tugas-tugas tersebut. Berikut ini merupakan sebuah gambaran yang bagus dari suatu system document mining yang merupakan sederetan langkah-langkah tertentu. 1. Klasifikasi Dokumen Langkah pertama adalah mencari lokasi dan mengambil dokumen yang relevan denagan tugas yang sedang dilakukan. 2. Information Retrieval Langkah berikutnya adalah mengekstraksi/menggali informasi dari dokumen yang terpilih. 3. Pengorganisasian dan Clustering Dokumen Setelah dilakukan pengisian template untuk masing-masing dokumen, kita sampai pada tahap dimana kita telah memiliki suatu database yang kompatibel dengan teknik data mining standar. 4. Information Extraction Langkah terakhir adalah memberikan interpretasi terhadap pola-pola yang diperoleh dari tahap sebelumnya. Idealnya, interpretasi ini akan memiliki format bahasa alami.

D.

Infornation Extraction Information Extraction merupakan salah satu komponen terpenting dalam proses

document mining. Information extraction adalah proses yang berkenaan dengan pembacaan suatu teks atau sekumpulan teks dengan tujuan menggali fakta-fakta yang ada di dalam teks tersebut. Grishman memberikan pandangan yang kuat atas teknik-teknik dasar yang digunakan di dalam proses information extraction, atau lebih spesifik lagi bagian dari information extraction yang berkenaan dengan pengekstraksian suatu jenis tindakan atau event tertentu. Di sini, kita memiliki keuntungan bahwa domain kita telah diketahui lebih dulu, dan sembaranmg system dapat diimplementasikan dan dilatih untuk dapat bekerja pada domain ini. Grishman memberikan tiga tahap dasar dalam proses information extraction: a. Fact extraction Pada tahap ini, kita memusatkan perhatian pada pencarian fakta-fakta individual yang terkandung di dalam dokumen. Di sini pengetahuan spesifik pada domain yang dipakai sangatlah pentig, karena kita dapat mengodekan pengenalan pola untuk faktafakta tertentu yang kita perkirakan akan ada di dalam dokumen. Berikut ini beberapa teknik untuk fact extraction: 1. Pattern matching (pencocokan pola): yaitu proses yang menggunakan ekspresi regular umum (common regular expression) untuk membentuk tingkatan ekstraksi terendah, yang secara efektif membangun suatu parsing teks dari bawah ke atas. 2. Lexical analysis (analisa leksikal): pada tingkatan terendah, kita memecah teks menjadi token-token (seperti dalam parsing bahasa pemrograman) dan dari situ mengidentifikasi kalimatnya. Di dalam kalimat, kita mencari konteks dari kata dan frase, .menggunakan berbagai kamus dan leksikon yang spesifik pada domain tertentu. 3. Syntactic and semantic structure ( Struktur sintaks dan sematik: usaha berikutnya adalah memberikan suatu komponen sintaks pada kata dan frasa di dalam masingmasing kalimat. Pencarian noun atau verb dapat di lakukan pada saat pembacaan kalimat, dan menyediakan petunjuk lebih lanjut pada konteks dari kata-kata yang muncul di dalam kalimat.

b. Fact integration Fact integration terutama berkenaan dengan masalah koreferensi. Kita melihat pada fakta-fakta individual di dalam dokumen, dan melihat bagaimana fakta-fakta tersebut menjadi satu kesatuan untuk membentuk suatu gambaran besar. c. Knowledge representation Knowledge integration merupakan fase yang mudah dalam proses information extraction, namun bias menjadi penting bagi pengguna akhir informasi yang diperoleh.

E.

Teknik-teknik Text Mining Sebagian besar teknik untuk text mining adalah berdasarkan pada teknik data mining dan

beberapa penjelasan berikut : a. Episode Rule Episode adalah konsep data mining yang digunakan untuk memberikan nilai sementara pada item-item data. Ahonen dkk menjelaskan sederetan tuple yang terdiri dari suatu vektor feature dan indeks yang menerangkan lokasi sementaranya. Pada saat mengaplikasikan pada teks, ahonen dkk menggunakan tuple untuk merepresentasikan setiap kemungkinan kata di dalam dokumen dan lokasinya. Suatu feature tidak terbatas hanya pada kata, tetapi bisa juga frasa atau tanda baca. b. Conceptual Clustering Clustering adalah suatu metode yang populer di dalam data mining. Clustering data menyusun cluster-cluster dokumen yang saling terkait. c. Hierarki Konsep Hierarki konsep adalah struktur yang berbentuk graf berarah yang berisi relasi antara konsep-konsep, di mana relasi induk-anak menandakan bahwa induk adalah konsep yang bersifat lebih umum daripada anaknya. Sebagai contoh, relasi peralatan komunikasi telepon menunujukkan bahwa peralatan komunikasi adalah konsep yang lebih umum daripada telepon. d. Trainable Natural Language Processing Systems (Sistem Pemrosesan Bahasa Alami yang dapat dilatih)

Natural Language Processing (NLP) adalah domain yang secara komputasioanal sangat mahal sehingga tidak begitu banyak digunakan di dalam document mining. Namun demekian, diharapkan bahwa metode NLP yang canggih akan terbukti sangat efektif dalam fase preprocessing dan information extraction dalam proses document mining. Dengan NLP kita mencoba membuat interpretasi dan memahami document teks mengguanakn heuristic bahasa tingkat lanjut. e. Pendekatan Neural Network(Jaringan Syaraf) Salah satu pendekatan lain untuk document mining adalah dengan menggunakan jaringan syaraf (neural network). Yang menarik bahwa jaringan syaraf sangat sesuai untuk input teks dan memiliki kemampuan mengidentifikasi struktur berdimensi banyak yang ada di dalam teks bahasa alami. Jaringan syaraf dikenal dapat bekerja dengan baik pada data yang mengandung noise, memiliki struktur yang sulit dipahami, dan memiliki karakteristik yang berubah-ubah seperti yang ada pada informasi teks.

F.

Riset dan Motivasi Bidang document mining ini memiliki aplikasi komersial yang kuat sehingga tidaklah

mengejutkan bahwa sebagian besar riset di bidang ini dilakukan oleh kelompok komersial seperti Mitre Corporation, Xerox dan IBM. Cara yang paling efektif untuk mengkaji efektivitas dari sistem document mining adalah dengan memberikannya masukan informasi yang kita tahu akan menghasilkan suatu konklusi dan mencocokkan outputnya dengan output yang dihasilkan oleh sistem. Cara yang paling efektif untuk menguji efektivitas dari system document mining adalah dengan memberikannya masukan informasi yang kita tahu akan menghasilakn suatu konklusi dan mencocokkan outputnya dengan output yang dihasilakn oleh system. Bisa saja system document mining menemukan item informasi yang berbeda dari yang diharapkan Masalah juga bida timbul pada beberapa metode evaluasi karena sifat alami manusia, yaitu setiap pakar pada domain tertentu akan memiliki opini yang berbeda-beda terhadap pertanyaan yang diajukan. Intuk melakukan pengukuran secara kuantitatif, recall(ingatan) dan presisi adalah dua saran pengukuran unjuk kerja dari suatu system analisa dokumen. Recall menyatakan banyaknya dokumen (atau fakta) yang benar yang dihasilkan oleh system sebagai rasio dari total jumlah (atau fakta) yang ditentukan berdasarkan penilaian manusia. Adapun presisi adalah rasio dari jumlah jawaban yang benar terhadap jumlah total jawaban.

Anda mungkin juga menyukai