Anda di halaman 1dari 17

LECTURE NOTES

Data and Text Mining

Week ke - 1

Introduction of Data & Text Mining

ISYS6333 – Data and Text Mining


LEARNING OUTCOMES

LO1: Describe data dan text mining concept, techniques, and method

OUTLINE MATERI :

• Overview

• Introduction data mining

– What Is Data Mining?

– Data Mining – On What Kind of Data?

– Which Technologies Are Used?

– Which Kinds of Applications Are Targeted?

– Major Issues in Data Mining

• Introduction Text mining

– Text Mining Application

– The Document Collection and the Document

– Characters, Words, Terms, and Concepts

– Two Foundations

– Type Data

– Text Mining Process

– Core Text Mining Operations

ISYS6333 – Data and Text Mining


ISI MATERI

Introduction data mining


A. What Is Data Mining?
Data mining merupakan pemilihan atau “menambang” pengetahuan dari jumlah data yang banyak. Data
mining sering dianggap sebagai bagian dari Knowledge Discovery in Database (KDD) yaitu sebuah
proses mencari pengetahuan yang bermanfaat dari data, proses Knowledge Discovery terdiri dari
tahapan sebagai berikut:
1. Data cleaning
Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang
inkonsisten, dan memperbaiki kesalahan pada data seperti kesalahan cetak (tipografi).
2. Data integration
Pada tahap data integration dilakukan pengecekan kombinasi data terhadap data yang
berasal dari banyak sumber.
3. Data selection
Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap
penggalian informasi. Data hasil seleksi yang akan digunakan untuk proses data
mining disimpan dalam suatu berkas terpisah dari basis data operasional.
4. Data transformation
Merupakan proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai
untuk proses data mining. Proses ini merupakan proses kreatif dan sangat tergantung pada
jenis atau pola informasi yang akan dicari dalam basis data
5. Data mining
Pemilihan tujuan dari proses KDD misalnya klasifikasi, regresi, clustering, dll. Proses
data mining adalah proses mencari pola atau informasi menarik dalam data terpilih
menggunakan teknik dan metode tertentu.

ISYS6333 – Data and Text Mining


6. Pattern evalution
Proses yang mengidentifikasi pola yang benar-benar menarik yang mewakili pengetahuan
berdasarkan beberapa ukuran tindakan meliputi hipotesa sebelumnya.
7. Knowledge presentation
Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang
mudah dimengerti oleh pihak yang berkepentingan.

ISYS6333 – Data and Text Mining


2. Data Mining – On What Kind of Data?
Sebagai teknologi umum, Data Mining dapat diterapkan ke semua jenis data selama data
tersebut bermakna untuk aplikasi target. Bentuk paling dasar dari data untuk aplikasi
pertambangan adalah data database, data warehouse, dan data transaksional. Data Mining
juga dapat diterapkan ke bentuk data lain (misalnya, aliran data, data urutan / urutan, grafik
atau data jaringan, data spasial, data teks,data multimedia, dan WWW).
1. Database Data
Sistem database, juga disebut sistem manajemen basis data (DBMS), terdiri dari
kumpulan data yang saling terkait, yang dikenal sebagai database, dan satu set program
perangkat lunak untuk mengelola dan mengakses data.
Database relasional adalah kumpulan tabel, yang masing-masing diberi nama yang unik.
Setiap tabel terdiri dari satu set atribut (kolom atau kolom) dan biasanya took satu set
besar tupel (catatan atau baris).
2. Data Warehouses
Gudang data adalah gudang informasi yang dikumpulkan dari berbagai sumber, disimpan
di bawah skema terpadu, dan biasanya berada di satu situs. Data warehouse dibangun
melalui proses pembersihan data, integrasi data, transformasi data, pemuatan data, dan
penyegaran data berkala.
3. Transactional Data
Secara umum, setiap catatan dalam database transaksional menangkap transaksi, seperti
pembelian pelanggan, pemesanan penerbangan, atau klik pengguna di halaman web.
Database transaksional mungkin memiliki tabel tambahan, yang berisi informasi lain
yang terkait dengan transaksi, seperti uraian item, informasi tentang penjual atau cabang,
dan sebagainya.
4. Data lainnya
Selain data basis data relasional, data gudang data, dan data transaksi, ada banyak jenis
data lain yang memiliki bentuk dan struktur serbaguna dan makna semantik yang agak
berbeda. Jenis data semacam itu dapat dilihat di banyak aplikasi: data yang terkait waktu
atau urutan (misalnya, catatan sejarah, data bursa saham, dan time-series dan data urutan

ISYS6333 – Data and Text Mining


biologis), aliran data (misalnya, pengawasan video dan data sensor, yang terus menerus
ditransmisikan), data spasial (misalnya, peta), data desain teknik (misalnya, desain
bangunan, komponen sistem, atau sirkuit terpadu), hypertext dan data multimedia
(termasuk teks, gambar, video, dan data audio), grafik dan data jaringan (misalnya,
jaringan sosial dan informasi), dan Web (repositori informasi yang tersebar luas dan besar
yang disediakan oleh Internet).

Data Mining Functionalities


Data mining secara deskriptif bertugas mengkarakteristik properti data pada basis data,
sedangkan tugas data mining prediktif yaitu membuat prediksi berdasarkan kesimpulan dari data
yang ada. Fungsionalitas data mining dideskripsikan sebagai berikut:
1. Asosiasi
Asosiasi adalah proses menemukan aturan asosiasi yang didapatkan dari frekuensi suatu
atribut pada sekumpulan data
2. Deskripsi Konsep / Kelas
Deskripsi konsep / kelas memberikan ringkasan yang jelas dan tepat dari sekumpulan
data. Deskripsi dapat diperoleh dari karakteristik data dan diskriminasi data atau kedua-
duanya.
3. Klasifikasi
Klasifikasi merupakan proses pencarian sekumpulan model atau fungsi yang
menggambarkan dan membedakan kelas atau konsep data dengan maksud menggunakan
model tersebut sebagai prediksi terhadap kelas atau obyek dimana label kelas tersebut
tidak diketahui.
4. Analisa Klaster
Berbeda dengan klasifikasi, klasterisasi merupakan unsupervised learning. Dalam
klasterisasi, label kelas tidak didefinisikan terlebih dahulu.

ISYS6333 – Data and Text Mining


5. Analisa Outlier
Outlier adalah objek data yang tidak memenuhi model dan persyaratan secara umum.
Obyek data outlier berbeda dan tidak konsisten dengan data set yang ada. Kebanyakan
metode data mining menganggap outlier sebagai sampah.

3. Data Mining Functionalities Which Technologies Are Used?


Data mining telah memasukkan banyak teknik dari domain lain seperti statistik, pembelajaran
mesin, pengenalan pola, database dan sistem data warehouse, pencarian informasi, visualisasi,
algoritma, komputasi kinerja tinggi, dan banyak domain aplikasi. Sifat penelitian dan
pengembangan data pertambangan interdisipliner memberikan kontribusi signifikan terhadap
keberhasilan Data Mining dan penerapannya yang luas. Pada bagian ini, kami memberikan
contoh beberapa disiplin yang sangat mempengaruhi pengembangan metode Data Mining

Gambar. Data mining adopts techniques from many domains

- Statistics
Model statistik adalah seperangkat fungsi matematika yang menggambarkan perilaku
objek di kelas sasaran dalam hal variabel acak dan distribusi probabilitas terkait.
- Machine Learning
Menyelidiki bagaimana komputer dapat belajar (atau meningkatkan kinerjanya)
berdasarkan data. Area penelitian utama adalah untuk program komputer agar secara

ISYS6333 – Data and Text Mining


otomatis belajar mengenali pola kompleks dan membuat keputusan cerdas berdasarkan
data.
- Database Systems and Data Warehouses
Riset sistem basis data berfokus pada pembuatan, pemeliharaan, dan penggunaan basis
data untuk organisasi dan pengguna akhir. Secara khusus, para peneliti sistem database
telah menetapkan prinsip-prinsip yang sangat diakui dalam model data, bahasa query,
pemrosesan query dan metode optimasi, penyimpanan data, dan pengindeksan dan
metode pengaksesan.
- Information Retrieval
Information retrieval (IR) adalah ilmu mencari dokumen atau informasi dalam dokumen.
Dokumen dapat berupa teks atau multimedia, dan dapat berada di Web. Perbedaan antara
pengambilan informasi tradisional dan sistem basis data ada dua: Pengambilan informasi
men
gasumsikan bahwa (1) data dalam pencarian tidak terstruktur; dan (2) kueri dibentuk
terutama oleh kata kunci, yang tidak memiliki struktur kompleks

4. Which Kinds of Applications Are Targeted?


Data Mining di domain aplikasi pengetahuan intensif, seperti bioinformatika dan rekayasa
perangkat lunak, memerlukan lebih banyak perlakuan mendalam dan berada di luar cakupan
buku ini. Untuk menunjukkan pentingnya aplikasi sebagai sebuah dimensi utama dalam
penelitian dan pengembangan data mining, kami secara singkat membahas dua contoh aplikasi
Data Mining yang sangat sukses dan populer: intelijen bisnis dan mesin pencari.
- Business Intelligence
Teknologi business intelligence (BI) memberikan tinjauan historis, terkini, dan prediksi
dari operasi bisnis. Contohnya termasuk pelaporan, pemrosesan analitik online,
manajemen kinerja bisnis, intelijen kompetitif, pembandingan, dan analisis prediktif.

ISYS6333 – Data and Text Mining


- Web Search Engines
Server komputer khusus yang mencari informasi di Web. Hasil pencarian dari permintaan
pengguna sering dikembalikan sebagai daftar (kadang-kadang disebut hits). Hit mungkin
terdiri dari halaman web, gambar, dan jenis file lainnya. Beberapa search engine juga
mencari dan mengembalikan data yang tersedia di database publik atau membuka
direktori.

5. Major Issues in Data Mining


Data Mining adalah bidang yang dinamis dan berkembang cepat dengan kekuatan besar. Di
bagian ini, kami secara singkat menguraikan masalah-masalah utama dalam penelitian Data
Mining, membagi mereka menjadi lima kelompok:
- Mining Methodology
penyelidikan jenis-jenis pengetahuan baru, penambangan di ruang multidimensional,
mengintegrasikan metode dari disiplin lain, dan pertimbangan ikatan semantik di antara
objek data.
- User Interaction
Pengguna memainkan peran penting dalam proses Data Mining. Bidang penelitian yang
menarik termasuk cara berinteraksi dengan sistem Data Mining, cara menggabungkan
pengetahuan latar belakang pengguna dalam penambangan, dan cara memvisualisasikan
dan memahami hasil Data Mining.
- Efficiency and Scalability
o Algoritma Data Mining harus efisien dan terukur untuk secara efektif
mengekstrak informasi dari sejumlah besar data di banyak repositori data atau
dalam aliran data dinamis.
o Ukuran yang sangat besar dari banyak set data, distribusi data yang luas, dan
kompleksitas komputasional dari beberapa metode Data Mining adalah faktor
yang memotivasi pengembangan dari parallel and distributed data-intensive mining
algorithms

ISYS6333 – Data and Text Mining


- Diversity of Database Types
o Handling complex types of data: Beragam aplikasi menghasilkan spektrum yang
luas dari tipe data baru, dari data terstruktur seperti data relasional dan data
gudang data semi-terstruktur dan tidak terstruktur; dari repositori data yang stabil
ke aliran data dinamis; dari objek data sederhana ke data temporal, urutan
biologis, data sensor, data spasial, data hypertext, data multimedia, kode program
perangkat lunak, data Web, dan data jejaring sosial.
o Mining dynamic, networked, and global data repositories: Berbagai sumber data
dihubungkan oleh Internet dan berbagai jenis jaringan, membentuk sistem dan
jaringan informasi global raksasa, tersebar, dan heterogen.
- Data Mining and Society
o Social impacts of data mining: Berbagai sumber data dihubungkan oleh Internet
dan berbagai jenis jaringan, membentuk sistem dan jaringan informasi global
raksasa, tersebar, dan heterogen. Penemuan pengetahuan dari berbagai sumber
data terstruktur, semi-terstruktur, atau tidak terstruktur namun saling
berhubungan dengan semantik data beragam menimbulkan tantangan besar untuk
Data Mining.
o Privacy-preserving data mining: Data Mining akan membantu penemuan ilmiah,
manajemen bisnis, pemulihan ekonomi, dan perlindungan keamanan (mis.,
Penemuan real-time dari penyusup dan serangan cyber). Namun, itu
menimbulkan risiko pengungkapan informasi pribadi seseorang. Studi tentang
penerbitan data pelestarian privasi dan Data Mining sedang berlangsung.
Filosofinya adalah mengamati sensitivitas data dan menjaga privasi orang-orang
saat melakukan Data Mining yang sukses.

DATA PREPROCESSING
Data preprocessing merupakan proses persiapan data yang dilakukan dengan tujuan
menyesuaikan kondisi data agar sesuai dengan kebutuhan pada proses analisis (data mining).
Datapreprocessing memakan waktu paling lama diantara proses-proses pencarian pengetahuan

ISYS6333 – Data and Text Mining


(knowledge discovery). Data preprocessing diperlukan karena data yang dimiliki sering kali
tidak lengkap, tidak konsisten, banyak terjadi perulangan data yang tidak perlu, dan
memuat anomali atau error. Metode pada data preprocessing yaitu:
1. Pembersihan Data (Data Cleaning)
Data cleaning bertujuan melengkapi atau menghapus data yang tidak lengkap,
menghilangkan data noise, mengidentifikasi atau menghapus anomali, dan mengatasi
masalah konsisten data.
2. Integrasi Data (Data Integration)
Integrasi data adalah suatu teknik mengkombinasikan data dari beberapa sumber dalam
satu tempat penyimpanan, misalnya gudang data (data warehouse). Sumber tersebut bisa
berupa multiple database, data cube atau file-file.
3. Transformasi Data (Data Transformation)
Data mentah perlu dilakukan proses transformasi untuk meningkatkan performanya.
Dalam transformasi data, data diubah menjadi bentuk yang bisa ditambang.
4. Reduksi Data (Data Reduction)
Data yang kompleks akan membutuhkan waktu yang lama untuk menambang. Teknik
reduksi data sangat membantu mereduksi data yang kompleks tanpa mengurangi
integritas dari data yang asli dan tidak mengurangi kualitas informasi yang dihasilkan.

Introduction Text mining

1. Defining Text mining


Text mining adalah proses mengeksplorasi dan menganalisis sejumlah besar data teks tidak
terstruktur yang dibantu oleh perangkat lunak yang dapat mengidentifikasi konsep, pola, topik,
kata kunci, dan atribut lainnya dalam data. Ini juga dikenal sebagai analitik teks, meskipun
beberapa orang menarik perbedaan antara kedua istilah tersebut; dalam pandangan itu, analisis
teks adalah aplikasi yang dimungkinkan oleh penggunaan teknik penambangan teks untuk
menyortir kumpulan data.

ISYS6333 – Data and Text Mining


2. Text Mining Application
Text mining sering digunakan diberbagai macam aplikasi diantaranya digunakan untuk
Klasifikasi berita, halaman web, ..., sesuai dengan isinya, Penyaringan email dan berita, Atur
repositori meta-informasi terkait dokumen untuk pencarian dan pengambilan (mesin pencari),
Menganalisis respons survei terbuka, Pemrosesan otomatis pesan, email, dll, Menganalisis
garansi atau klaim asuransi, wawancara diagnostik, dll. Investigasi pesaing dengan merayapi
situs web mereka.

3. The Document Collection and the Document


Elemen kunci dari penambangan teks adalah fokusnya pada koleksi dokumen. Paling sederhana,
kumpulan dokumen dapat berupa pengelompokan dokumen berbasis teks. Solusi penambangan
teks ditujukan untuk menemukan pola di kumpulan dokumen yang sangat besar.

4. Characters, Words, Terms, and Concepts


1. Characters. Huruf tingkat komponen individual, angka, karakter khusus, dan spasi adalah
blok bangunan fitur semantik tingkat tinggi seperti kata, istilah, dan konsep.

2. Words, Kata-kata khusus yang dipilih langsung dari dokumen "asli" berada pada tingkat
yang dapat digambarkan sebagai tingkat dasar kekayaan semantik. Secara umum, fitur
level kata tunggal harus disamakan dengan, atau memiliki nilai, tidak lebih dari satu
token linguistik.

3. Terms. Istilah adalah kata tunggal dan frasa multi-kata yang dipilih langsung dari
kumpulan dokumen asli melalui metodologi ekstraksi istilah.

4. Concepts, Konsep adalah fitur yang dihasilkan untuk suatu dokumen melalui metodologi
kategorisasi manual, statistik, berbasis aturan, atau hibrid

5. Two Foundations
Information Retrieval (IR)

ISYS6333 – Data and Text Mining


6. Type Data

7. Text Mining Process

ISYS6333 – Data and Text Mining


8. Core Text Mining Operations

Tiga jenis pola yang paling umum ditemui dalam penambangan teks adalah

1. Distributions (and proportions)

2. Frequent and near frequent sets

3. Associations

ISYS6333 – Data and Text Mining


SIMPULAN

Data Mining adalah proses menemukan pola menarik dari sejumlah besar data. Sebagai proses
penemuan pengetahuan, biasanya melibatkan pembersihan data, integrasi data, pemilihan data,
transformasi data, penemuan pola, evaluasi pola, dan presentasi pengetahuan.

Sebuah pola menarik jika valid pada data uji dengan beberapa tingkat kepastian, novel,
berpotensi berguna dan mudah dimengerti oleh manusia. Pola menarik mewakili pengetahuan.

Ukuran minat pola, baik objektif atau subjektif, dapat digunakan untuk memandu proses
penemuan. Kami menyajikan pandangan multidimensi Data Mining. Dimensi utama adalah data,
pengetahuan, teknologi, dan aplikasi.

Data Mining dapat dilakukan pada semua jenis data selama data yang berarti untuk aplikasi
target, seperti data database, data data warehouse, data transaksional, dan tipe data lanjutan. Tipe
data tingkat lanjut meliputi data terkait waktu atau urutan, aliran data, data spasial dan data
spasial, teks dan multimedia, grafik dan data jaringan, dan data Web.

Data Mining multidimensi (juga disebut eksplorasi penambangan multidimensi data)


mengintegrasikan teknik Data Mining inti dengan OLAP berbasis analisis multidimensi. Ini
mencari pola yang menarik di antara beberapa kombinasi dimensi (atribut) pada berbagai tingkat
abstraksi, sehingga menjelajahi ruang data multidimensi.

Fungsionalitas Data Mining digunakan untuk menentukan jenis pola atau pengetahuan yang
dapat ditemukan dalam tugas Data Mining. Fungsionalitas termasuk karakterisasi dan
diskriminasi; penambangan pola, asosiasi, dan korelasi yang sering terjadi; klasifikasi dan
regresi; analisis klaster; dan deteksi pencilan.

Data Mining, sebagai domain yang digerakkan oleh aplikasi tinggi, telah memasukkan teknologi
dari banyak domain lainnya. Ini termasuk statistik, pembelajaran mesin, basis data dan

ISYS6333 – Data and Text Mining


sistem data warehouse, dan pengambilan informasi. Sifat penelitian dan pengembangan data
pertambangan interdisipliner memberikan kontribusi signifikan terhadap keberhasilan Data
Mining dan aplikasi ekstensifnya.

Data mining memiliki banyak aplikasi yang sukses, seperti intelijen bisnis, pencarian Web,
bioinformatika, informatika kesehatan, keuangan, perpustakaan digital, dan data digital
pemerintah.

Text mining adalah proses mengeksplorasi dan menganalisis sejumlah besar data teks tidak
terstruktur yang dibantu oleh perangkat lunak yang dapat mengidentifikasi konsep, pola, topik,
kata kunci, dan atribut lainnya dalam data. Ini juga dikenal sebagai analitik teks, meskipun
beberapa orang menarik perbedaan antara kedua istilah tersebut; dalam pandangan itu, analisis
teks adalah aplikasi yang dimungkinkan oleh penggunaan teknik penambangan teks untuk
menyortir kumpulan data.

Text mining sering digunakan diberbagai macam aplikasi diantaranya digunakan untuk
Klasifikasi berita, halaman web, ..., sesuai dengan isinya, Penyaringan email dan berita, Atur
repositori meta-informasi terkait dokumen untuk pencarian dan pengambilan (mesin pencari),
Menganalisis respons survei terbuka, Pemrosesan otomatis pesan, email, dll, Menganalisis
garansi atau klaim asuransi, wawancara diagnostik, dll. Investigasi pesaing dengan merayapi
situs web mereka.
Elemen kunci dari penambangan teks adalah fokusnya pada koleksi dokumen. Paling sederhana,
kumpulan dokumen dapat berupa pengelompokan dokumen berbasis teks. Solusi penambangan
teks ditujukan untuk menemukan pola di kumpulan dokumen yang sangat besar.

ISYS6333 – Data and Text Mining


DAFTAR PUSTAKA

1. Han, J., Kamber, M., & Pei, Y. (2012). Data Mining: Concepts and Techniques. 03.
Morgan Kaufmann Publishers. San Fracisco. ISBN: 978-0123814791

ISYS6333 – Data and Text Mining

Anda mungkin juga menyukai