Anda di halaman 1dari 16

Text Mining

Modul 01 :
Pendahuluan
Yudhistira Arie Wijaya
yudhistira@ikmi.ac.id
yudhistira4215@yahoo.co.id
yudhistira010471@gmail.com
+62 85 864 394 008
Topik 02 : Mengenal
Datamining dan
Textmining
Modul 01 :
Pendahuluan
Capaian Modul 01 – Topik 02
Mahasiswa mampu :
• Menjelaskan definisi data, informasi, dan pengetahuan
• menjelaskan tipe-tipe data
• menjelaskan bentuk dari dokumen teks
• mengetahui karakteristik dokumen teks
• menjelaskan proses data mining

Data Mining dan Text Mining – Modul 01 – Topik 02 – Mengenal Data Mining dan Teks Mining
Data, Informasi dan Pengetahuan
• Banyak ahli meyakini bahwa pengetahuan adalah kekuatan dan bahwa
pengetahuan berasal dari pemahaman informasi; informasi, pada gilirannya,
adalah pemberian makna pada data
• Hierarki Data, Informasi, dan Pengetahuan sering digunakan dari tahun delapan
puluhan hingga sembilan puluhan dalam siklus IT
• Untuk mendapatkan pengetahuan, sering menggunakan data mining dan text
mining

Data Mining dan Text Mining – Modul 01 – Topik 02 – Mengenal Data Mining dan Teks Mining
Data …
• Data tidak sama dengan informasi. Data tidak tergantung pada suatu hubungan
(hanya angka atau kata-kata) sampai dihubungkan kemudian menjadi
pengetahuan (J. Pohl, 2001)
• Hasil observasi langsung terhadap suatu kejadian, yang merupakan
perlambangan yang mewakili objek atau konsep dalam dunia nyata. Hal ini
dilengkapi dengan nilai tertentu (Pendit, 1992)
• (data mentah) adalah kumpulan teks, angka dan simbol tanpa makna
(Cambridge International AS, 2017)
• Contoh data :
• 3, 6 , 9, 12
5

• Kucing, anjing, kelinci, kakatua

Data Mining dan Text Mining – Modul 01 – Topik 02 – Mengenal Data Mining dan Teks Mining
Informasi ….
• kumpulan data yang terstruktur yang disampaikan seseorang kepada orang lain
(Teskey pada Pendit, 1992)
• data yang telah diolah menjadi sebuah bentuk yang berarti bagi penerimanya
dan bermanfaat dalam mengambil keputusan saat ini atau mendatang (Gordon
B. Davis, 1999)
• hasil dari pemrosesan data (biasanya oleh komputer) menghasilkan fakta, yang
memungkinkan data yang diproses untuk digunakan dalam konteks dan
memiliki makna. Informasi adalah data yang memiliki makna (Cambridge
International AS, 2017)

Data Mining dan Text Mining – Modul 01 – Topik 02 – Mengenal Data Mining dan Teks Mining
Pengetahuan ….
• informasi dan pengetahuan, selalu merujuk pada suatu hubungan yang terus-
menerus antara informasi yang baru diperoleh dan pengetahuan yang masih
statis pada saat informasi tersebut diterima (Nitecki dalam Pendit, 1992)
• hasil dari memahami informasi yang telah diberikan dan menggunakan
informasi itu untuk mendapatkan pengetahuan tentang bagaimana
menyelesaikan masalah (Cambridge International AS, 2017)

Data Mining dan Text Mining – Modul 01 – Topik 02 – Mengenal Data Mining dan Teks Mining
Tipe-tipe Data
Perkembangan data :
• Spatial Data : data geografis, data kesehatan, dan data gambar satellite
• Multimedia Data : gambar, suara, dan video
• Time-series Data : data perbangkan
• Text data : deskripsi kata yang menjadi objek
• Worl-wide-web : teks dan data multimedia yang sangat tidak terstruktur

Data Mining dan Text Mining – Modul 01 – Topik 02 – Mengenal Data Mining dan Teks Mining
Basis data teks
Contoh-contoh basis data teks :
• Artikel berita
• Paper penelitian
• Buku
• Email, dan sumber lainnya
Bentuk document :
• Plain teks
• Format elemen : xml, html, rtf, odt, email, dan sebagainya
• Format biner : pdf, doc, dan sebagainya
9

Data Mining dan Text Mining – Modul 01 – Topik 02 – Mengenal Data Mining dan Teks Mining
Karakteristik dokumen teks
Menurut Loreta Auvil dan Duane Searsmith dari University of Illinois, karakteristik
dokumen teks :
• basis data teks berukuran besar;
• memiliki dimensi yang tinggi (satu kata satu dimensi);
• mengandung kumpulan kata yang saling terkait (frase) dan antara kumpulan
kata satu dengan lain dapat memiliki arti yang berbeda;
• banyak mengandung kata ataupun arti yang bias (ambiguity);
• dokumen email merupakan dokumen yang tidak memiliki struktur bahasa yang
baku, karena di dalamnya terkadang muncul istilah yang tidak umum
10

Data Mining dan Text Mining – Modul 01 – Topik 02 – Mengenal Data Mining dan Teks Mining
Teks Mining
• Teks mining merupakan data mining yang menggunakan dokumen teks sebagai
data
• Pada pra-proses dokumen teks hampir semua menggunakan metode
Information Retrieval (pencarian informasi)
• Teks mining : menemukan informasi yang berguna dari kumpulan teks dimana
informasi sebelumnya tidak diketahui
• Pola
• Trens
• Asosiasi
11

Data Mining dan Text Mining – Modul 01 – Topik 02 – Mengenal Data Mining dan Teks Mining
Data Mining
• Data mining merupan suatu alat dan aplikasi menggunakan analisis statistik
pada data
• Data mining menggambarkan sebuah pengumpulan teknik-teknik dengan tujuan
untuk menemukan pola-pola yang tidak diketahui pada data yang telah
dikumpulkan
• Data mining memungkinkan untuk menemukan pengetahuan dalam database
yang tidak mungkin diketahui keberadaanya oleh pengguna
• Data mining adalah suatu proses ekstraksi atau penggalian data dan informasi
yang besar, yang belum diketahui sebelumnya, namun dapat dipahami dan
berguna dari database yang besar serta digunakan untuk membuat suatu
keputusan bisnis yang sangat penting
12

Data Mining dan Text Mining – Modul 01 – Topik 02 – Mengenal Data Mining dan Teks Mining

• Data mining merupakan bagian integral dari Knowledge Discovery in Databases
(KDD)

13

Data Mining dan Text Mining – Modul 01 – Topik 02 – Mengenal Data Mining dan Teks Mining
Teks Mining Bekerja
• Mengkonversi teks menjadi data terstruktur. Bentuk perubahan yang dilakukan
ke dalam spreadsheet, kolom menunjuk dokumen dan baris menunjuk kata,
sedangkan selnya menunjuk frekuensi kata dalam dokumen
• Melakukan teknik analisis, seperti klustering, klasifikasi atau prediksi
• Menemukan pola yang tersembunyi
• Melakukan pelatihan untuk mendekteksi pola pada teks baru dan tidak terlihat
(klasifikasi atau prekdiksi)

14

Data Mining dan Text Mining – Modul 01 – Topik 02 – Mengenal Data Mining dan Teks Mining

Collect data Preprocess data Analyze data

• Raw • Convert to a • Using


unstructured structured standard
data from format descriptive or
website, predictive
email, tweet, analytics
etc techniques
such as
clustering,
classification,
etc

Text Processing 15

Data Mining dan Text Mining – Modul 01 – Topik 02 – Mengenal Data Mining dan Teks Mining

Text Processing

16

Data Mining dan Text Mining – Modul 01 – Topik 02 – Mengenal Data Mining dan Teks Mining

Anda mungkin juga menyukai