Anda di halaman 1dari 5

NAMA : YOFIK KURNIAWAN

KELAS : SI4E
NIM : 171410282
MATKUL : INTELIGENT SYSTEM
JURUSAN : SISTEM INFORMASI
DOSEN : YESI NOVARIA KUNANG, S.T., M.Kom

TUGAS 4

 SOAL
1. Jelaskan perbedaan data mining dan Text Mining ?
2. Jelaskan perbedaan data terstruktur dan tidak terstruktur ?
3. Jelaskan tahapan dari text mining ?

 Jawaban
1. Perbedaan data mining dan text mining :
A. Data Mining merupakan prinsip dasar dalam mengurutkan data dalam jumlah yang
sangat banyak dan mengambil informasi – informasi yang berkaitan dengan apa yang
diperlukan seperti apa yang biasa dilakukan oleh seorang analisis.

Data Mining :
1. Proses langsung
2. Mengidentifikasi penyebab hubungan
3. Angka terstruktur data transaksi yang berada dalam data rasional Gudang

Data mining mempunyai empat fungsi dasar yaitu:

1. Fungsi Prediksi (prediction). Proses untuk menemukan pola dari data dengan
menggunakan beberapa variabel untuk memprediksikan variabel lain yang
tidak diketahui jenis atau nilainya.
2. Fungsi Deskripsi (description). Proses untuk menemukan suatu karakteristik
penting dari data dalam suatu basis data.
3. Fungsi Klasifikasi (classification). Klasifikasi merupakan suatu proses untuk
menemukan model atau fungsi untuk menggambarkan class atau konsep dari
suatu data. Proses yang digunakan untuk mendeskripsikan data yang penting
serta dapat meramalkan kecenderungan data pada masa depan.
4. Fungsi Asosiasi (association). Proses ini digunakan untuk menemukan suatu
hubungan yang terdapat pada nilai atribut dari sekumpulan data.
B. Text mining adalah proses ekstraksi pola berupa informasi dan pengetahuan yang
berguna dari sejumlah besar sumber data teks, seperti dokumen Word, PDF, kutip
an teks, dll. Jenis masukan untuk penambangan teks ini disebut data tak terstruktur
dan merupakan pembeda utama dengan penambangan data yang menggunakan
data terstruktur atau basis data sebagai masukan. Penambangan teks dapat
dianggap sebagai proses dua tahap yang diawali dengan penerapan struktur
terhadap sumber data teks dan dilanjutkan dengan ekstraksi informasidan
pengetahuan yang relevan dari data teks terstruktur ini dengan menggunakan teknik
dan alat yang sama dengan penambangan data. Proses yang umum dilakukan oleh
penambangan teks di antaranya adalah perangkuman otomatis, kategorisasi doku
men, penggugusan teks, deteksi plagiarisme, dll. (Turban, et.al., 2011)

Text Mining :
1. Pemrosesan bahasa atau bahasa alami pemrosesan (NLP)
2. Temukan sebelumnya informasi tidak diketahui.
3. Aplikasi berurusan dengan jauh lebih beragam dan koleksi eklektik dari sistem
dan format.

Text Mining mempunyai tujuan yaitu :

1. Untuk mendapatkan informasi yang berguna dari sekumpulan dokumen. Jadi,


sumber data yang digunakan pada text mining adalah kumpulan teks yang
memiliki format yang tidak terstruktur atau minimal semi terstruktur. Adapun
tugas khusus dari text mining antara lain yaitu pengkategorisasian teks (text
categorization) dan pengelompokan teks text clustering).
2. Penerapan konsep dan teknik data mining untuk mencari pola dalam teks, yaitu
proses penganalisisan teks guna menyarikan informasi yang bermanfaat untuk
tujuan tertentu.
3. Tujuan text mining mempersiapkan agar teks dapat diubah menjadi lebih
terstruktur.

2. Perbedaan data terstruktur dan tidak terstruktur :


A. Data terstruktur mendefinisikan tipe data atribut, yang ada pada rekord maupun
tuple. Setiap rekord memiliki field yang sama. Data ada dalam entitas dan entitas
yang sama dikelompokkan menjadi satu menggunakan relasi atau kelas. Entitas
dalam kelompok yang sama memiliki atribut yang sama pula. Deskripsi untuk
semua entitas dalam skema memiliki kesamaan format.
Data Tersturuktur :
1. Penggunaan data terstruktur semakin banyak dilakukan , sejak basisdata
relasional ada untuk mengatur data dengan ukuran sangat besar. Sistem yang
ada saat ini, seperti CRM (Customer Relationship Management), ERP
(Enterprise Resource Planning) dan CMS (Content Managemnt System)
merupakan data terstruktur untuk pemodelan data.
2. Data terstruktur biasanya dijalankan untuk mengakses database yang disebut
dengan Structured Query Languange atau yang lebih dikenal dengan SQL.
3. Data terstruktur adalah data yang berada dalam satu tempat baik berbetuk
sebuah file termasuk data yang berada dalam database ataupun spreadsheet.

B. Data tidak terstruktur adalah data yang tidak mudah diklasifikasi dan dimasukan
kedalam sebuah kotak dengan rapi. Contohnya adalah foto, gambar grafis,
streaming instrument data, webpages, pdf, PowerPointpresentations, konten blog
dan lain sebagainya.

Data tidak Terstruktur :


1. Data tidak tersturuktur sangat sulit untuk di management menggunakan
mekanisme tradisional atau manual.
2. Data tidak terstruktur dapat dibagi menjadi:
a. Manajemen Konten dan Dokumen
b. Pencarian dan Pengambilan
c. Basis data dan alat XML
d. Kategorisasi, Klasifikasi, dan Visualisasi

3. Tahapan dari text mining :


A. Case folding merupakan tahapan yang mengubah semua huruf dalam dokumen menjadi
huruf kecil. Hanya huruf ‘a’ sampai dengan ‘z’ yang diterima. Karakter selain huruf
dihilangkan dan dianggap delimiter (pembatas)(Triawati, 2009).Contoh penggunaan
case folding adalah sebagai berikut.

Data Input Hasil Case Folding


B. Tokenizing Tahap tokenizing / parsing adalah tahap pemotongan string input
berdasarkan tiap kata yang menyusunnya(Triawati, 2009). Selain itu, spasi digunakan
untuk memisahkan antar kata tersebut.

Data Input Hasil Tokenizing

Penjelasan :
Data Input = Kalimat/kata input hasil dari proses case folding
Ouput = Kumpulan Kata

C. Tahap filtering adalah tahap mengambil kata - kata penting dari hasil
tokenizing. Proses filtering dapat menggunakan algoritma stoplist (membuang
kata yang kurang penting) atau wordlist (menyimpan kata penting). Stoplist /
stopword adalah kata-kata yang tidak deskriptif yang dapat dibuang dalam
pendekatan bag-of-words. Contoh stopword adalah “yang”, “dan”, “di”, “dari”
dan lain – lain.(Triawati, 2009).

Data Input Hasil Filtering

Penjelasan :
Data Input = Kumpulan kata hasil dari proses tokenizing/parsing.
Ouput = Kumpulan term yang siap untuk diolah dengan proses svd.
D. Stemming merupakan suatu proses yang terdapat dalam sistem IR yang
mentransformasi kata-kata yang terdapat dalam suatu dokumen ke kata-kata akarnya
(root word) dengan menggunakan aturan-aturan tertentu (Agusta, 2009). Stemming
kebanyakan digunakan pada teks berbahasa inggris dikarenakan teks berbahasa inggris
memiliki struktur imbuhan yang tetap dan mudah untuk diolah sementara stemming
untuk proses bahasa Indonesia memiliki struktur imbuhan yang rumit / kompleks
sehingga agak lebih susah untuk diolah.

E. Spelling Normalization merupakan perbaikan dan subtitusi kata-kata yang salah eja
ataupun disingkat dengan bentuk tertentu. Subtitusi kata dilakukan untuk menghindari
jumlah perhitungan dimensi kata yang melebar. Perhitungan dimensi kata akan melebar
jika kata yang salah eja atau disingkat tidak diubah karena kata tersebut sebenarnya
memiliki kontribusi dalam merepresentasikan dokumen tetapi akan dianggap sebagai
entitas yang berbeda proses penyusunan matriks.

F. Analyzing merupakan tahap penentuan seberapa jauh keterhubungan antar kata-kata


antar dokumen yang ada

Anda mungkin juga menyukai