Week ke - 1
LO1: Describe data dan text mining concept, techniques, and method
OUTLINE MATERI :
• Overview
– Two Foundations
– Type Data
- Statistics
Model statistik adalah seperangkat fungsi matematika yang menggambarkan perilaku
objek di kelas sasaran dalam hal variabel acak dan distribusi probabilitas terkait.
- Machine Learning
Menyelidiki bagaimana komputer dapat belajar (atau meningkatkan kinerjanya)
berdasarkan data. Area penelitian utama adalah untuk program komputer agar secara
DATA PREPROCESSING
Data preprocessing merupakan proses persiapan data yang dilakukan dengan tujuan
menyesuaikan kondisi data agar sesuai dengan kebutuhan pada proses analisis (data mining).
Datapreprocessing memakan waktu paling lama diantara proses-proses pencarian pengetahuan
2. Words, Kata-kata khusus yang dipilih langsung dari dokumen "asli" berada pada tingkat
yang dapat digambarkan sebagai tingkat dasar kekayaan semantik. Secara umum, fitur
level kata tunggal harus disamakan dengan, atau memiliki nilai, tidak lebih dari satu
token linguistik.
3. Terms. Istilah adalah kata tunggal dan frasa multi-kata yang dipilih langsung dari
kumpulan dokumen asli melalui metodologi ekstraksi istilah.
4. Concepts, Konsep adalah fitur yang dihasilkan untuk suatu dokumen melalui metodologi
kategorisasi manual, statistik, berbasis aturan, atau hibrid
5. Two Foundations
Information Retrieval (IR)
Tiga jenis pola yang paling umum ditemui dalam penambangan teks adalah
3. Associations
Data Mining adalah proses menemukan pola menarik dari sejumlah besar data. Sebagai proses
penemuan pengetahuan, biasanya melibatkan pembersihan data, integrasi data, pemilihan data,
transformasi data, penemuan pola, evaluasi pola, dan presentasi pengetahuan.
Sebuah pola menarik jika valid pada data uji dengan beberapa tingkat kepastian, novel,
berpotensi berguna dan mudah dimengerti oleh manusia. Pola menarik mewakili pengetahuan.
Ukuran minat pola, baik objektif atau subjektif, dapat digunakan untuk memandu proses
penemuan. Kami menyajikan pandangan multidimensi Data Mining. Dimensi utama adalah data,
pengetahuan, teknologi, dan aplikasi.
Data Mining dapat dilakukan pada semua jenis data selama data yang berarti untuk aplikasi
target, seperti data database, data data warehouse, data transaksional, dan tipe data lanjutan. Tipe
data tingkat lanjut meliputi data terkait waktu atau urutan, aliran data, data spasial dan data
spasial, teks dan multimedia, grafik dan data jaringan, dan data Web.
Fungsionalitas Data Mining digunakan untuk menentukan jenis pola atau pengetahuan yang
dapat ditemukan dalam tugas Data Mining. Fungsionalitas termasuk karakterisasi dan
diskriminasi; penambangan pola, asosiasi, dan korelasi yang sering terjadi; klasifikasi dan
regresi; analisis klaster; dan deteksi pencilan.
Data Mining, sebagai domain yang digerakkan oleh aplikasi tinggi, telah memasukkan teknologi
dari banyak domain lainnya. Ini termasuk statistik, pembelajaran mesin, basis data dan
Data mining memiliki banyak aplikasi yang sukses, seperti intelijen bisnis, pencarian Web,
bioinformatika, informatika kesehatan, keuangan, perpustakaan digital, dan data digital
pemerintah.
Text mining adalah proses mengeksplorasi dan menganalisis sejumlah besar data teks tidak
terstruktur yang dibantu oleh perangkat lunak yang dapat mengidentifikasi konsep, pola, topik,
kata kunci, dan atribut lainnya dalam data. Ini juga dikenal sebagai analitik teks, meskipun
beberapa orang menarik perbedaan antara kedua istilah tersebut; dalam pandangan itu, analisis
teks adalah aplikasi yang dimungkinkan oleh penggunaan teknik penambangan teks untuk
menyortir kumpulan data.
Text mining sering digunakan diberbagai macam aplikasi diantaranya digunakan untuk
Klasifikasi berita, halaman web, ..., sesuai dengan isinya, Penyaringan email dan berita, Atur
repositori meta-informasi terkait dokumen untuk pencarian dan pengambilan (mesin pencari),
Menganalisis respons survei terbuka, Pemrosesan otomatis pesan, email, dll, Menganalisis
garansi atau klaim asuransi, wawancara diagnostik, dll. Investigasi pesaing dengan merayapi
situs web mereka.
Elemen kunci dari penambangan teks adalah fokusnya pada koleksi dokumen. Paling sederhana,
kumpulan dokumen dapat berupa pengelompokan dokumen berbasis teks. Solusi penambangan
teks ditujukan untuk menemukan pola di kumpulan dokumen yang sangat besar.
1. Han, J., Kamber, M., & Pei, Y. (2012). Data Mining: Concepts and Techniques. 03.
Morgan Kaufmann Publishers. San Fracisco. ISBN: 978-0123814791