P10 Text Mining

5/14/2014
1
APK
2014
Text mining/ text data mining/ text analytics/ knowledge discovery in textual
database: proses menemukan informasi (pola dan tren) berkualitas tinggi
(relevan, baru dan menarik) dari data berbentuk teks.
Text mining merupakan penerapan konsep dan teknik data mining untuk mencari
pola dalamteks.
Analisis teks untuk memperoleh informasi yang bermanfaat untuk tujuan tertentu
Proses data mining untuk dokumen/ teks memerlukan lebih banyak tahapan,
karena data teks memiliki karakteristik yang lebih kompleks daripada data
biasa.
5/14/2014
2
Mining Text Data
Data Mining / Knowledge Discovery
Structured Data Multimedia Free Text Hypertext
HomeLoan (
Loanee: Frank Rizzo
Lender: MWF
Agency: Lake View
Amount: $200,000
Term: 15 years
)
Frank Rizzo bought
his home from Lake
View Real Estate in
1992.
He paid $200,000
under a15-year loan
from MW Financial.
<a href>Frank Rizzo
</a> Bought
<a hef>this home</a>
from <a href>Lake
View Real Estate</a>
In <b>1992</b>.
<p>...
Loans($200K,[map],...)
Contoh data:
Email, Klaim asuransi, Artikel berita, Halaman web, Surat komplain pelanggan, Kontrak,
Rekaman telepon dengan pelanggan, Dokumen teknis
Karakteristik:
Basis data teks umumnya berukuran besar
Memiliki dimensi yang tinggi, yaitu berdasarkan jumlah kata
Mengandung kumpulan kata yang saling terkait (frase) dan antar frase dapat memiliki arti
yang berbeda satu sama lain
Banyak mengandung kata yang bias/ ambigu
Informasi dalam bentuk teks tidak terstruktur
Tidak siap diakses secara langsung
5/14/2014
3
1. Text preprocessing
Analisis sintaksis dan semantik
Part-of-Speech (POS) Tagging: kelompok kata
Word Sense Disambiguation: context-based
Pembangkitan parse tree untuk setiap kalimat
2. Text transformation representasi dokumen
Bag-of-word
Kata dan frekuensi
Analogi tabel relasi: kata-atribut, frekuensi-nilai atribut, dokumen-record
Vectorial document representation
Dokumen: vector multi dimensi
Kesamaan: sudut antar vektor
5/14/2014
4
3. Feature selection
Bertujuan untuk mengurangi fitur/ dimensi
Case folding
Stemming dan penghilangan stopwords
Pemilihan kata yang relevan
Menghapus kata yang muncul paling sedikit dan paling banyak
4. Text mining
Task umumnya:
Text classification/ categorization
Text clustering
Document summarization
Keyword-based association analysis
Sentiment analysis
Tahap training: pengenalan pola dari sejumlah teks yang sudah memiliki kategori, menghasilkan
skema/ pola/ model kategorisasi/ klasifikasi
Tahap testing: prediksi kategori/ kelas dari sejumlah teks baru yang belum diketahui kategori/
kelasnya, berdasarkan model klasifikasi yang sudah dibentuk pada tahap training.
Categorization
System
Sports
Business
Education
Science
5/14/2014
5
Klasifikasi artikel berita
Pengelompokan email otomatis
Klasifikasi halaman web
5/14/2014
6
Proses membagi sekumpulan data teks
ke dalam kelompok-kelompok
dokumen berdasarkan kemiripan
konten, yaitu feature vectors-nya.
Identifikasi topik dari kelompok
dokumen dengan cara membuat
daftar istilah/ kata yang sering
muncul dalam dokumen-dokumen di
kelompok tsb.
Klasterisasi hasil retrieval
Penentuan label klasifikasi dokumen dalam koleksi
5/14/2014
7
Menghasilkan versi singkat/ ringkasan dari dokumen aslinya
Cara yang sering digunakan adalah retrieval-based
Pendekatan:
Extraction, mis. Perankingan kalimat, lalu pilih top N sebagai ringkasan
Abstraction, melibatkan analisis semantic, representasi makna, dll
Metode untuk perankingan kalimat
Berdasarkan bobot istilah
Berdasarkan posisi kalimat
Berdasarkan similarity kalimat dan document vector
5/14/2014
8
Peringkasan berita
Peringkasan hasil retrieval
Single document
Multi-documents
Peringkasan klaster dokumen untuk pelabelan otomatis
5/14/2014
9
Mengumpulkan keywords/ terms yang sering muncul bersamaan, lalu
mencari relasi asosiasi diantaranya
Proses:
Setiap dokumen dianggap sebagai sebuah transaksi
Sekumpulan keywords dalam dokumen sebagai sekumpulan items dalam transaksi
Mis. untuk mengidentifikasi entitas-entitas yang berkaitan erat (frequent
itemsets)
Identifikasi orientasi opini yang terkandung dalam teks
Dapat diperluas menjadi pengelompokan berbagai emosi
The movie
was fabulous!
The movie
stars Mr. X
The movie
was horrible!
[ Factual ] [ Sentimental ] [ Sentimental ]
5/14/2014
10
The movie was
interesting and
fabulous
The movie was
very boring
Word-level SA
Sentence-level SA
Document-level SA
The police stopped
corruption
His last movie was
great.
fabulous
interesting
boring
police (subj.) stopped (verb) corruption (obj.)
His last movie was
Great and interesting.
This ones a dud.
Kategorisasi tidak sesuai dengan topik
Sangat bergantung pada domain masalah
Sinisme/ sarkasme
Ekspresi verbal yang disampaikan dalam teks
5/14/2014
11
APK
2014
Web: kumpulan file-file yang saling berkaitan pada satu/ lebih Web servers.
Web mining merupakan penerapan teknik-teknik data mining pada
repository data web yang berukuran besar.
Untuk menemukan informasi yang berguna dari World-wide Web dan pola
penggunaannya.
Tujuan penerapan web mining juga untuk meningkatkan desain dan
struktur web, serta menghasilkan rekomendasi yang dinamis.
5/14/2014
12
Mengolah konten web pages serta hasil pencarian webnya
Web page content mining ~ text mining
Proses ekstraksi pengetahuan dari konten web
Web search result mining
Dapat memperluas hasil perncarian search engines
Melibatkan crawlers untuk mengumpulkan informasi, teknik indexing untuk menyimpan
informasi secara terstruktur, serta query processing untuk menyediakan informasi yang
dibutuhkan oleh pengguna
5/14/2014
13
Data isi web umumnya semi-terstruktur
Judul, pengarang, tanggal publikasi, panjang dokumen, kategori, abstrak konten
Dokumen diolah untuk memperoleh data terstruktur
Representasi bag of words
Stop word removal
Stemming
dst
Mengembangkan algoritma pencarian
Image searching
Menangani similar pages
5/14/2014
14
Upaya pencarian pola akses pengguna secara otomatis berdasarkan
interaksi pengguna dengan sebuah Website atau lebih
Tujuan: menganalisis pola perilaku dan profil pengguna Website
Dilakukan berdasarkan data logs dari interaksi pengguna Web
Web server logs
Site contents
Data tentang pengunjung web
dll
1 2006-02-01 00:08:43 1.2.3.4 - GET /classes/cs589/papers.html - 200 9221
HTTP/1.1 maya.cs.depaul.edu
Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727)
http://dataminingresources.blogspot.com/
2 2006-02-01 00:08:46 1.2.3.4 - GET /classes/cs589/papers/cms-tai.pdf - 200 4096
Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727)
http://maya.cs.depaul.edu/~classes/cs589/papers.html
3 2006-02-01 08:01:28 2.3.4.5 - GET /classes/ds575/papers/hyperlink.pdf - 200
318814 HTTP/1.1 maya.cs.depaul.edu
Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1)
http://www.google.com/search?hl=en&lr=&q=hyperlink+analysis+for+the+web+survey
4 2006-02-02 19:34:45 3.4.5.6 - GET /classes/cs480/announce.html - 200 3794
Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1)
http://maya.cs.depaul.edu/~classes/cs480/
5 2006-02-02 19:34:45 3.4.5.6 - GET /classes/cs480/styles2.css - 200 1636
http://maya.cs.depaul.edu/~classes/cs480/announce.html
6 2006-02-02 19:34:45 3.4.5.6 - GET /classes/cs480/header.gif - 200 6027
http://maya.cs.depaul.edu/~classes/cs480/announce.html
5/14/2014
15
5/14/2014
16
Mengenali halaman, objek/ sumber daya yang sering diakses oleh sekelompok
pengguna dengan common interest.
Menemukan pola penggunaan Web, yaitu jalur navigasi yang paling sering
digunakan oleh pengguna Website, untuk meningkatkan kualitas tampilan
informasi
Personalisasi web: mengatur tampilan dan isi Website sesuai kebutuhan dan
selera pengguna berdasarkan kebiasaan akses pengguna
Identifikasi pelanggan potensial dari e-commerce
Upaya untuk menemukan struktur atau model link dalam Web
Model dibuat berdasarkan topologi hyperlinks
Menerapkan teori graph
Pages ~ nodes, hyperlinks ~ edges
In-degree dari node p: jumlah links berbeda yang menuju ke p
Out-degree dari node p: jumlah links berbeda yang berasal dari p menuju ke node lain
Directed path: jalur links yang saling berkait, berawal dari p hingga menuju q
Shortest path: jalur terpendek dari p menuju q
5/14/2014
17
Selain halaman-halaman yang relevan, ada pula kebutuhan untuk mengenali
authoritative sources dari informasi bertopik tertentu.
Sebuah hyperlink menuju halaman lain merupakan pendukung halaman tersebut
Banyaknya pendukung halaman menunjukkan tingkat kepentingan halaman tersebut
Definisi
Authorities: halaman web yang mengandung banyak informasi tentang topic tertentu
Hubs: halaman yang mengandung banyak links ke authoritites
Masalah
Tidak semua hyperlinks berasal dari hubs yang baik (mis. halaman iklan)
Produk pesaing biasanya tidak saling mengacu
Menemukan similarity antar situs
Membedakan halaman yang penting dan tidak penting
Menemukan halaman hubs dan authorities berdasarkan links yang masuk ke
dan keluar dari halaman web
Deteksi web spam
Social Network Analysis (SNA)
5/14/2014
18

P10 Text Mining

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

P10 Text Mining

Diunggah oleh

Hak Cipta:

Format Tersedia

5/14/2014

Anda mungkin juga menyukai