Tugas Inteligent System (Yofi Kurniawan)
Tugas Inteligent System (Yofi Kurniawan)
KELAS : SI4E
NIM : 171410282
MATKUL : INTELIGENT SYSTEM
JURUSAN : SISTEM INFORMASI
DOSEN : YESI NOVARIA KUNANG, S.T., M.Kom
TUGAS 4
SOAL
1. Jelaskan perbedaan data mining dan Text Mining ?
2. Jelaskan perbedaan data terstruktur dan tidak terstruktur ?
3. Jelaskan tahapan dari text mining ?
Jawaban
1. Perbedaan data mining dan text mining :
A. Data Mining merupakan prinsip dasar dalam mengurutkan data dalam jumlah yang
sangat banyak dan mengambil informasi – informasi yang berkaitan dengan apa yang
diperlukan seperti apa yang biasa dilakukan oleh seorang analisis.
Data Mining :
1. Proses langsung
2. Mengidentifikasi penyebab hubungan
3. Angka terstruktur data transaksi yang berada dalam data rasional Gudang
1. Fungsi Prediksi (prediction). Proses untuk menemukan pola dari data dengan
menggunakan beberapa variabel untuk memprediksikan variabel lain yang
tidak diketahui jenis atau nilainya.
2. Fungsi Deskripsi (description). Proses untuk menemukan suatu karakteristik
penting dari data dalam suatu basis data.
3. Fungsi Klasifikasi (classification). Klasifikasi merupakan suatu proses untuk
menemukan model atau fungsi untuk menggambarkan class atau konsep dari
suatu data. Proses yang digunakan untuk mendeskripsikan data yang penting
serta dapat meramalkan kecenderungan data pada masa depan.
4. Fungsi Asosiasi (association). Proses ini digunakan untuk menemukan suatu
hubungan yang terdapat pada nilai atribut dari sekumpulan data.
B. Text mining adalah proses ekstraksi pola berupa informasi dan pengetahuan yang
berguna dari sejumlah besar sumber data teks, seperti dokumen Word, PDF, kutip
an teks, dll. Jenis masukan untuk penambangan teks ini disebut data tak terstruktur
dan merupakan pembeda utama dengan penambangan data yang menggunakan
data terstruktur atau basis data sebagai masukan. Penambangan teks dapat
dianggap sebagai proses dua tahap yang diawali dengan penerapan struktur
terhadap sumber data teks dan dilanjutkan dengan ekstraksi informasidan
pengetahuan yang relevan dari data teks terstruktur ini dengan menggunakan teknik
dan alat yang sama dengan penambangan data. Proses yang umum dilakukan oleh
penambangan teks di antaranya adalah perangkuman otomatis, kategorisasi doku
men, penggugusan teks, deteksi plagiarisme, dll. (Turban, et.al., 2011)
Text Mining :
1. Pemrosesan bahasa atau bahasa alami pemrosesan (NLP)
2. Temukan sebelumnya informasi tidak diketahui.
3. Aplikasi berurusan dengan jauh lebih beragam dan koleksi eklektik dari sistem
dan format.
B. Data tidak terstruktur adalah data yang tidak mudah diklasifikasi dan dimasukan
kedalam sebuah kotak dengan rapi. Contohnya adalah foto, gambar grafis,
streaming instrument data, webpages, pdf, PowerPointpresentations, konten blog
dan lain sebagainya.
Penjelasan :
Data Input = Kalimat/kata input hasil dari proses case folding
Ouput = Kumpulan Kata
C. Tahap filtering adalah tahap mengambil kata - kata penting dari hasil
tokenizing. Proses filtering dapat menggunakan algoritma stoplist (membuang
kata yang kurang penting) atau wordlist (menyimpan kata penting). Stoplist /
stopword adalah kata-kata yang tidak deskriptif yang dapat dibuang dalam
pendekatan bag-of-words. Contoh stopword adalah “yang”, “dan”, “di”, “dari”
dan lain – lain.(Triawati, 2009).
Penjelasan :
Data Input = Kumpulan kata hasil dari proses tokenizing/parsing.
Ouput = Kumpulan term yang siap untuk diolah dengan proses svd.
D. Stemming merupakan suatu proses yang terdapat dalam sistem IR yang
mentransformasi kata-kata yang terdapat dalam suatu dokumen ke kata-kata akarnya
(root word) dengan menggunakan aturan-aturan tertentu (Agusta, 2009). Stemming
kebanyakan digunakan pada teks berbahasa inggris dikarenakan teks berbahasa inggris
memiliki struktur imbuhan yang tetap dan mudah untuk diolah sementara stemming
untuk proses bahasa Indonesia memiliki struktur imbuhan yang rumit / kompleks
sehingga agak lebih susah untuk diolah.
E. Spelling Normalization merupakan perbaikan dan subtitusi kata-kata yang salah eja
ataupun disingkat dengan bentuk tertentu. Subtitusi kata dilakukan untuk menghindari
jumlah perhitungan dimensi kata yang melebar. Perhitungan dimensi kata akan melebar
jika kata yang salah eja atau disingkat tidak diubah karena kata tersebut sebenarnya
memiliki kontribusi dalam merepresentasikan dokumen tetapi akan dianggap sebagai
entitas yang berbeda proses penyusunan matriks.