Text mining
Text mining memiliki definisi menambang data yang berupa teks dimana sumber data
biasanya di dapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat
mewakili isi dari dokumen sehingga dapat dilakukan analisa keterhubungan antardokumen.
Sedangkan menurut situs wikipedia, Penambangan teks (bahasa Inggris: text mining)
adalah proses ekstraksi pola berupa informasi dan pengetahuan yang berguna dari sejumlah
besar sumber data teks, seperti dokumen Word, PDF, kutipanteks, dll. Jenis masukan untuk
penambangan teksini disebut data takter struktur dan merupakan pembeda utama dengan
penambangan data yang menggunakan data terstruktur atau basis data sebagai masukan.
Penambangan teks dapat dianggap sebagai proses dua tahap yang diawali dengan penerapan
struktur terhadap sumber data teks dan dilanjutkan dengan ekstraksi informasi dan pengetahuan
yang relevandari data teks terstrukturini dengan menggunakan teknik dan alat yang sama
dengan penambangan data. Proses yang umum dilakukan oleh penambangan teks di antaranya
adalah perangkuman otomatis, kategorisasi dokumen, penggugusan teks, dll.
Tujuan dari text mining adalah untuk mendapatkan informasi yang berguna dari
sekumpulan dokumen. Jadi, sumber data yang digunakan pada text mining adalah kumpulan
teks yang memiliki format yang tidak terstruktur atau minimal semi terstruktur. Adapun tugas
khusus dari text mining antara lain yaitu pengkategorisasian teks (text categorization) dan
pengelompokan teks text clustering).
Text mining merupakan penerapan konsep dan teknik data mining untuk mencari pola
dalam teks, yaitu proses penganalisisan teks guna menyarikan informasi yang bermanfaat
untuk tujuan tertentu.
Berdasarkan ketidakteraturan struktur data teks, maka proses text mining memerlukan
beberapa tahap awal yang pada intinya adalah mempersiapkan agar teks dapat diubah menjadi
lebih terstruktur.
Proses dalam Text Mining
Supaya berhasil, berbagai kajian text mining seharusnya mengikuti methodologi yang
baik berdasarkan ‘best practices’. Model proses standard diperlukan yang mirip dengan CRISP-
DM, yang merupakan standard industry untuk project-project data mining. Meskipun sebagian
besar CRISP-DM juga bisa diterapkan ke project-project text minig, model proses tertentu untuk
text mining akan memasukkan berbagai macam aktivitas data preprocessing yang jauh lebih rumit.
Gambar di samping menggambarkan diagram context tingkat tinggi dari suatu proses text
mining pada umumnya. Diagram context ini menyajikan lingkup proses, dengan menekankan
beberapa antarmukanya dengan lingkungan yang lebih besar. Pada dasarnya, gambar tersebut
menjelaskan batas-batas dikeitar proses tertentu untuk mengidentifikasi secara eksplisit apa yang
akan dimasukkan (dan dikeluarkan) dari proses text mining.
Seperti yang ditunjukkan dalam diagram context, bagian input (panah arah ke dalam di
sebelah kiri kotak) dalam proses penemuan ‘knowledge’ berbasis text adalah data yang ‘tak-
testruktur’ dan ‘terstruktur ‘ yang dikumpulkan, disimpan dan disediakan untuk proses. Bagian
output (panah keluar di sebelah kanan kotak) dari proses adalah knowledge dengan konteks tertentu
yang bisa digunakan untuk proses pengambilan keputusan. Berbagai macam kontrol (kendali) atau
yang disebut juga dengan constraint (panah ke dalam di bagian atas kotak), dari proses di atas
meliputi berbagai batasan software dan hardware, isu tentang privasi, dan berbagai kesulitan yang
berkaitan dengan pemrosesan text yang disajikan dalam bentuk bahasa alami. Mekanisme (panah
kea rah dalam di bagian bawah kotak) dari proses di atas meliputi berbagai macam teknik yang
tepat, berbagai tool software, dan keahlian domain. Maksud utama dari text mining (dalam konteks
penemuan knowledge) adalah untuk memroses data (teks) yang tak-terstruktur (dan juga data
terstruktur, bila ada dan relevan ke masalah yang sedang disorot) untuk mengekstrak berbagai pola
yang dapat ditindaklanjuti dan berarti bagi proses pengambilan keputusan yang lebih baik.
Pemanfaatan Text Mining
Tahapan yang dilakukan pada proses data mining diawali dari seleksi data dari data
sumber ke data target, tahap preprocessing untuk memperbaiki kualitas data, transformasi, data
mining serta tahap interpretasi dan evaluasi yang menghasilkan output berupa pengetahuan
baru yang diharapkan memberikan kontribusi yang lebih baik
1. Data selection
Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum
tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang digunakan untuk
proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional.
2. Pre-processing / cleaning
Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada
data yang menjadi fokus KDD. Proses cleaning mencakup antara lain membuang duplikasi
data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data.
3. Transformation
Coding adalah proses transformasi pada data yang telah dipilih, sehingga data tersebut
sesuai untuk proses data mining. Proses coding dalam KDD merupakan proses kreatif dan
sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data.
4. Data mining
Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih
dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data
mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada
tujuan dan proses KDD secara keseluruhan.
5. Interpretation / evalution
Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam
bentuk yang mudah dimengerti oleh pihak yang berkepentingan.
Daftar Pustaka
ayyad, Usama. 1996. Advances in Knowledge Discovery and Data Mining. MIT
Press.