Artikel

ARTIKEL
TEXT MINING PADA DATA MINING
Oleh : Antoni Purnomo Aji || G.131.16.0094
FAKULTAS TEKNOLOGI INFORMASI DAN KOMUNIKASI

PROGRAM STUDI S1 SISTEM INFORMASI
UNIVERSITAS SEMARANG
2019
Text Mining Pada Data Mining
Text mining
Text mining memiliki definisi menambang data yang berupa teks dimana sumber data
biasanya di dapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat
mewakili isi dari dokumen sehingga dapat dilakukan analisa keterhubungan antardokumen.
Sedangkan menurut situs wikipedia, Penambangan teks (bahasa Inggris: text mining)
adalah proses ekstraksi pola berupa informasi dan pengetahuan yang berguna dari sejumlah
besar sumber data teks, seperti dokumen Word, PDF, kutipanteks, dll. Jenis masukan untuk
penambangan teksini disebut data takter struktur dan merupakan pembeda utama dengan
penambangan data yang menggunakan data terstruktur atau basis data sebagai masukan.
Penambangan teks dapat dianggap sebagai proses dua tahap yang diawali dengan penerapan
struktur terhadap sumber data teks dan dilanjutkan dengan ekstraksi informasi dan pengetahuan
yang relevandari data teks terstrukturini dengan menggunakan teknik dan alat yang sama
dengan penambangan data. Proses yang umum dilakukan oleh penambangan teks di antaranya
adalah perangkuman otomatis, kategorisasi dokumen, penggugusan teks, dll.
Tujuan dari text mining adalah untuk mendapatkan informasi yang berguna dari
sekumpulan dokumen. Jadi, sumber data yang digunakan pada text mining adalah kumpulan
teks yang memiliki format yang tidak terstruktur atau minimal semi terstruktur. Adapun tugas
khusus dari text mining antara lain yaitu pengkategorisasian teks (text categorization) dan
pengelompokan teks text clustering).
Text mining merupakan penerapan konsep dan teknik data mining untuk mencari pola
dalam teks, yaitu proses penganalisisan teks guna menyarikan informasi yang bermanfaat
untuk tujuan tertentu.
Berdasarkan ketidakteraturan struktur data teks, maka proses text mining memerlukan
beberapa tahap awal yang pada intinya adalah mempersiapkan agar teks dapat diubah menjadi
lebih terstruktur.
Proses dalam Text Mining
Supaya berhasil, berbagai kajian text mining seharusnya mengikuti methodologi yang
baik berdasarkan ‘best practices’. Model proses standard diperlukan yang mirip dengan CRISP-
DM, yang merupakan standard industry untuk project-project data mining. Meskipun sebagian
besar CRISP-DM juga bisa diterapkan ke project-project text minig, model proses tertentu untuk
text mining akan memasukkan berbagai macam aktivitas data preprocessing yang jauh lebih rumit.
Gambar di samping menggambarkan diagram context tingkat tinggi dari suatu proses text
mining pada umumnya. Diagram context ini menyajikan lingkup proses, dengan menekankan
beberapa antarmukanya dengan lingkungan yang lebih besar. Pada dasarnya, gambar tersebut
menjelaskan batas-batas dikeitar proses tertentu untuk mengidentifikasi secara eksplisit apa yang
akan dimasukkan (dan dikeluarkan) dari proses text mining.
Seperti yang ditunjukkan dalam diagram context, bagian input (panah arah ke dalam di
sebelah kiri kotak) dalam proses penemuan ‘knowledge’ berbasis text adalah data yang ‘tak-
testruktur’ dan ‘terstruktur ‘ yang dikumpulkan, disimpan dan disediakan untuk proses. Bagian
output (panah keluar di sebelah kanan kotak) dari proses adalah knowledge dengan konteks tertentu
yang bisa digunakan untuk proses pengambilan keputusan. Berbagai macam kontrol (kendali) atau
yang disebut juga dengan constraint (panah ke dalam di bagian atas kotak), dari proses di atas
meliputi berbagai batasan software dan hardware, isu tentang privasi, dan berbagai kesulitan yang
berkaitan dengan pemrosesan text yang disajikan dalam bentuk bahasa alami. Mekanisme (panah
kea rah dalam di bagian bawah kotak) dari proses di atas meliputi berbagai macam teknik yang
tepat, berbagai tool software, dan keahlian domain. Maksud utama dari text mining (dalam konteks
penemuan knowledge) adalah untuk memroses data (teks) yang tak-terstruktur (dan juga data
terstruktur, bila ada dan relevan ke masalah yang sedang disorot) untuk mengekstrak berbagai pola
yang dapat ditindaklanjuti dan berarti bagi proses pengambilan keputusan yang lebih baik.
Pemanfaatan Text Mining
Penerapan Bidang Marketing

Text mining bisa digunakan untuk meningkatkan ‘cross-selling’ dan ‘up-
selling’ dengan menganalisa data tak-terstruktur yang dihasilkan oleh ‘call-centers’.
Text yang dihasilkan oleh catatan di call-centers dan juga transkrip percakapannya
dengan pelanggan bisa dianalisa dengan menggunakan algoritma-algoritma text
mining untuk mengekstrak informasi yang baru dan bisa ditindaklanjuti tentang
persepsi pelanggan terhadap produk dan layanan pelanggan. Selain itu, berbagai
blog, review pelanggan tentang produk dan layanan perusahaan dari berbagai situs
independen, dan diskusi di forum adalah tambang emas dalam analisa sentimen
pelanggan. Kumpulan informasi yang kaya tersebut, sekali dianalisa dengan benar,
bisa dimanfaatkan untuk meningkatkan kepuasan dan keseluruhan nilai pelanggan.
Penerapan Bidang Keamanan

Salah satu penerapan text mining yang terbesar dan paling terkenal dalam
bidang keamanan barangkali adalah system pengawasan ECHELON yang sangat
rahasia. Seperti rumornya, ECHELON dianggap mampu mengidentifikasi isi panggilan
telepon, faks, email, dan jenis-jenis data lainnya, dengan mengambil informasi di
tengah yang dikirim lewat satelit, jaringan telepon public, dan link microwave.
Penerapan Bidang Biomedis

Text mining memiliki potensi yang dahsyat dalam bidang biomedis secara
umum dan biomedik dalam hal tertentu dengan beberapa alasan. Pertama, literatur
yang sudah terbit dan terbitan-terbitan publikasi (khususnya dengan kedatangan
berbagai jurnal open source) dalam bidang ini sedang berkembang cepat secara
eksponential. Kedua, bila dibandingkan dengan kebanyakan bidang-bidang yang lain,
literatur bidang medis lebih terstandardisasi dan teratur rapi, sehingga
menjadikannya sumber informasi yang lebih mudah untuk ditambang. Terakhir,
terminologi yang digunakan dalam literatur relatif tetap sama, sehingga memiliki
ontologi yang cukup terstandardisasi. Berikut dibawah ini adalah beberapa kajian
contoh dimana teknik-teknik dalam text mining berhasil digunakan untuk
mengekstrak pola-pola baru dari literatur biomedis.
Penerapa Bidang Akademik
Isu tentang text mining merupakan hal yang sangat penting bagi para penerbit
yang memiliki banyak database yang sangat besar tentang informasi yang
memerlukan ‘indexing’ untuk pencarian informasi yang lebih baik. Hal ini memang
betul dalam bidan ilmu pengetahuan, dimana informasi yang sangat khusus seringkali
berada di dalam tulisan teks. Banyak inisiatif telah diluncurkan, seperti proposal
‘Nature’ untuk ‘Open Text Mining Interface’ (OTMI) dan ‘National Institutes of
Health’s common Journal Publishing Document Type Definition’ (DTD), yang
memberikan petunjuk-petunjuk semantik bagi mesin untuk menjawab pertanyaan-
pertanyaan tertentu yang terkandung di dalam teks tanpa menghilangkan hambatan
penerbit terhadap akses publik.
Tahapan Data Mining
Tahapan yang dilakukan pada proses data mining diawali dari seleksi data dari data
sumber ke data target, tahap preprocessing untuk memperbaiki kualitas data, transformasi, data
mining serta tahap interpretasi dan evaluasi yang menghasilkan output berupa pengetahuan
baru yang diharapkan memberikan kontribusi yang lebih baik
1. Data selection
Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum
tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang digunakan untuk
proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional.
2. Pre-processing / cleaning
Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada
data yang menjadi fokus KDD. Proses cleaning mencakup antara lain membuang duplikasi
data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data.
3. Transformation
Coding adalah proses transformasi pada data yang telah dipilih, sehingga data tersebut
sesuai untuk proses data mining. Proses coding dalam KDD merupakan proses kreatif dan
sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data.
4. Data mining
Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih
dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data
mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada
tujuan dan proses KDD secara keseluruhan.
5. Interpretation / evalution
Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam
bentuk yang mudah dimengerti oleh pihak yang berkepentingan.
Daftar Pustaka
Turban, E, 2005, Decision Support Systems and Intelligent Systems Edisi

Bahasa Indonesia Jilid 1. Andi: Yogyakarta.
Larose, Daniel T. 2005. Discovering Knowledge in Data : An Introduction to

Data Mining. John Willey & Sons, Inc.
ayyad, Usama. 1996. Advances in Knowledge Discovery and Data Mining. MIT
Press.

Artikel

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Artikel

Diunggah oleh

Hak Cipta:

Format Tersedia

ARTIKEL

TEXT MINING PADA DATA MINING

Oleh : Antoni Purnomo Aji || G.131.16.0094

FAKULTAS TEKNOLOGI INFORMASI DAN KOMUNIKASI

Penerapan Bidang Marketing

Penerapan Bidang Keamanan

Penerapan Bidang Biomedis

Tahapan Data Mining

Turban, E, 2005, Decision Support Systems and Intelligent Systems Edisi

Larose, Daniel T. 2005. Discovering Knowledge in Data : An Introduction to

Anda mungkin juga menyukai