Anda di halaman 1dari 11

LECTURE NOTES

Week ke - 10

Pre-processing applications using


probabilistic and hybrid approaches

ISYS6333 – Data and Text Mining


LEARNING OUTCOMES

LO 1: Describe data dan text mining concept, techniques, and method

LO 3: Using Text mining Method to solve problems from data

OUTLINE MATERI :

 Applications of HMM to textual analysis


 Bootstrapping
 TEG: Using SCFG Rules for Hybrid Statistical–Knowledge-Based IE

ISYS6333 – Data and Text Mining


ISI MATERI
1. Applications of HMM to textual analysis
Freitag dan McCallum (Freitag dan McCallum 1999, 2000) menerapkan suatu bidang sistem
ekstraksi memanfaatkan tidak ada pemrosesan NLP tujuan umum. Sistem ini dirancang untuk
memecahkan masalah umum yang dapat ditentukan sebagai berikut: temukan fragmen teks
terbaik yang tidak terputus dari dokumen yang menjawab beberapa pertanyaan spesifik per
domain. Pertanyaan tersebut dinyatakan secara implisit dalam bentuk satu set dokumen pelatihan
berlabel, masing-masing berisi satu bidang berlabel.
Model HMM yang digunakan untuk tujuan ini memiliki karakteristik sebagai berikut:
 Simbol pengamatan adalah kata-kata dan token lain seperti angka.
 HMM mengambil seluruh dokumen sebagai satu urutan observasi.
 HMM berisi dua kelas status: status latar belakang dan status target. Negara bagian latar
memancarkan kata-kata di mana kita tidak tertarik, sedangkan negara target memancarkan
kata-kata yang merupakan informasi yang akan diekstraksi.
 Topologi HMM telah ditentukan sebelumnya dan hanya beberapa transisi yang
diperbolehkan antar negara bagian.

Hidden Markov Models (HMMs) with python

import numpy as np

from sklearn import hmm

startprob = np.array([0.6, 0.3, 0.1])

transmat = np.array([[0.7, 0.2, 0.1], [0.3, 0.5, 0.2], [0.3, 0.3, 0.4]])

means = np.array([[0.0, 0.0], [3.0, -3.0], [5.0, 10.0]])

covars = np.tile(np.identity(2), (3, 1, 1))

model = hmm.GaussianHMM(3, "full", startprob, transmat) model.means_ = means

model.covars_ = covars X, Z = model.sample(100)

ISYS6333 – Data and Text Mining


2. Teg: Using SCFG Rules For Hybrid Statistical–Knowledge-Based IE

Pendekatan lain telah dijelaskan yang menggunakan model ekstraksi informasi statistik dan
pengetahuan berbasis hibrida yang dapat mengekstraksi entitas dan relasi di tingkat kalimat.
Model ini mencoba untuk mempertahankan dan meningkatkan tingkat akurasi tinggi sistem
berbasis pengetahuan sementara secara drastis mengurangi jumlah kerja manual dengan
mengandalkan statistik yang diambil dari korpus pelatihan. Implementasi model, yang disebut
trainable extraction grammar (TEG), dapat diadaptasi untuk setiap domain IE dengan menulis
serangkaian aturan yang sesuai dalam bahasa ekstraksi berbasis SCFG dan melatih mereka
menggunakan korpus beranotasi. Sistem tidak mengandung komponen linguistik murni apa pun
seperti tagger POS atau parser. Proses ini mendemonstrasikan kinerja sistem pada beberapa
ekstraksi entitas bernama dan tugas ekstraksi relasi. Eksperimen menunjukkan bahwa
pendekatan hibrida mengungguli kedua sistem murni berbasis statistik dan murni dan
membutuhkan perintah-of-besarnya kurang penulisan aturan manual dan sejumlah kecil data
pelatihan. Peningkatan akurasi sedikit untuk tugas ekstraksi entitas bernama dan lebih jelas untuk
ekstraksi relasi. Dengan mencurahkan perhatian pada detail TEG, dapat memberikan rasa
konkret bagaimana sistem tipe hibrida dapat digunakan untuk preprocessing text mining operasi.

Implementasi Rule-base IE system with python


import spacy
from spacy.matcher import Matcher
nlp = spacy.load("en_core_web_sm")
matcher = Matcher(nlp.vocab)
# Add match ID "HelloWorld" with no callback and one pattern
pattern = [{"LOWER": "hello"}, {"IS_PUNCT": True}, {"LOWER": "world"}]
matcher.add("HelloWorld", None, pattern)
doc = nlp("Hello, world! Hello world!")
matches = matcher(doc)
for match_id, start, end in matches:
string_id = nlp.vocab.strings[match_id] # Get string representation
span = doc[start:end] # The matched span
print(match_id, string_id, start, end, span.text)

ISYS6333 – Data and Text Mining


3. Bootstrap

Pendekatan bootstrap ke IE mengambil jalan tengah antara teknik pengetahuan dan pendekatan
pembelajaran mesin. Gagasan utama di balik pendekatan ini adalah bahwa pengguna
memberikan beberapa bias awal baik dengan menyediakan leksikon awal kecil atau sejumlah
kecil aturan untuk menginduksi contoh awal. Pendekatan bootstrap berusaha untuk menghindari
kebutuhan corpus beranotasi, yang bisa sangat mahal dan memakan waktu untuk menghasilkan.

Main steps within AutoSlog-TS

1. Pengguna menyediakan dua set dokumen, menarik (I) dan noninterestin (N).?
2. Parsing Dangkal dilakukan untuk semua dokumen, dan, atas dasar template yang telah
ditentukan semua pola yang cocok dengan salah satu templat diekstraksi (EP).?
3. Untuk setiap pola ekstraksi dalam EP, kami menghitung relevansi pola: di mana # (I, Pat)
adalah jumlah dokumen dalam koleksi dokumen I yang berisi pola P.

4. Kami menghitung pentingnya setiap pola ekstraksi dalam EP sesuai dengan rumus berikut dan
memberi peringkat dalam urutan menurun:
Imp (Pat) = Rel (Pat) log2 (# (D, Pat)).

ISYS6333 – Data and Text Mining


5. Sistem menyajikan aturan peringkat teratas kepada pengguna untuk evaluasi

Mutual Bootstrapping

Jauh mirip dengan AutoSlog-TS, korpus diproses dan semua pola ekstraksi yang mungkin
dihasilkan bersama dengan frase nomina yang diekstrak oleh mereka.
Tujuan utama dari pendekatan ini adalah untuk memperluas leksikon awal dan mempelajari pola
ekstraksi yang akurat yang dapat mengekstrak contoh untuk leksikon.
Initialization
N = total number of extraction patterns
EPi = one extraction pattern (i = 1..N)
EPData = a list of pairs (EPi, Noun Phrases generated by the EPi)
SemLex = the list of seed words (the initial lexicon)
EPlist = {}

Metabootstrapping

Salah satu masalah utama yang dihadapi dengan bootstrapping bersama adalah bahwa sekali kata
ditambahkan ke leksikon yang bukan milik kategori semantik, efek domino dapat dibuat,
memungkinkan pola ekstraksi yang salah untuk menerima skor tinggi dan dengan demikian
menambahkan lebih banyak entri yang salah ke leksikon. Untuk mencegah masalah ini, Riloff
dan Jones menyarankan menggunakan metode lain yang disebut metabootstrapping, yang
memungkinkan lebih baik kontrol butir atas contoh yang ditambahkan ke leksikon. Dalam
metabootstrapping, hanya lima instance teratas yang diekstrak dengan menggunakan pola
ekstraksi terbaik dipertahankan dan ditambahkan ke lexicon semantik permanen. Semua contoh
lainnya dibuang. Contoh dihitung dengan menghitung, untuk masing-masing Misalnya, berapa
banyak pola ekstraksi yang dapat mengekstraknya. Secara formal, nilai contoh Ij dihitung
sebagai berikut:

ISYS6333 – Data and Text Mining


dimana Nj adalah jumlah pola ekstraksi yang dihasilkan Ij.

Setelah contoh baru ditambahkan ke leksikon semantik permanen, yang saling bootstrapping
dimulai dari awal. Sebuah pandangan skematis dari aliran proses metabootstrapping disajikan.

Evaluation of the Metabootstrapping Algorithm

Tiga kategori semantik diekstrak dari "halaman Web" (lokasi, nama perusahaan, dan judul
orang), dan dua kategori semantik diekstraksi dari artikel yang berhubungan dengan teror (lokasi
dan senjata). Algoritma metabootstrapping dijalankan untuk 50 iterasi. Selama setiap iterasi,
bootstrapping bersama dijalankan hingga menghasilkan 10 pola yang mengekstraksi setidaknya
satu contoh baru yang dapat ditambahkan ke leksikon .

ISYS6333 – Data and Text Mining


Implementasi Bootstrapping With python

import numpy as np

import bootstrapped.bootstrap as bs

import bootstrapped.stats_functions as bs_stats

mean = 100

stdev = 10

population = np.random.normal(loc=mean, scale=stdev, size=50000) # take 1k 'samples'

from the larger population samples = population[:1000] print(bs.bootstrap(samples,

stat_func=bs_stats.mean))

print(bs.bootstrap(samples, stat_func=bs_stats.std))

ISYS6333 – Data and Text Mining


KESIMPULAN

Bidang terkait NLP, IE, kategorisasi teks, dan pemodelan probabilistic berkembang pesat dalam
beberapa tahun terakhir. Pendekatan baru dicoba terus-menerus dan sistem baru dilaporkan
berjumlah ribuan per tahun. sebagian besar Lapangan tetap merupakan sains eksperimental -
pendekatan atau peningkatan baru dipahami dan sistem dibangun, diuji, dan dilaporkan. Namun,
pekerjaan yang relatif sedikit adalah dilakukan dalam menganalisis hasil dan membandingkan
sistem dan pendekatan dengan masing-masing lain. Biasanya, tugas para penulis sistem tertentu
untuk membandingkannya dengan pendekatan lain yang diketahui, dan ini menghadirkan
kesulitan - baik secara psikologis maupun metodologis.
Salah satu alasan kurangnya kerja analitis, tidak termasuk kurangnya suara secara umum
landasan teoritis, adalah bahwa eksperimen perbandingan memerlukan perangkat lunak, yang
biasanya tidak mungkin atau sangat mahal untuk didapatkan. Apalagi, perangkat lunak
membutuhkan integrasi, penyesuaian, dan mungkin pelatihan untuk setiap penggunaan baru,
yang juga sangat penting mahal dalam hal waktu dan tenaga manusia.
Oleh karena itu, deskripsi tentang berbagai solusi yang mungkin untuk masalah dijelaskan dalam
bagian pertama tidak lengkap karena kebutuhan. Terlalu banyak sistem yang dilaporkan, dan
seringkali tidak ada alasan yang baik untuk memilih salah satu pendekatan yang lain. Oleh
karena itu, telah mencoba mendeskripsikan secara mendalam hanya sejumlah kecil sistem.
Proses yang telah memilih seleksi seluas mungkin, mencakup banyak pendekatan berbeda. Dan,
tentu saja, hasil yang dihasilkan oleh sistem adalah negara seni atau cukup dekat dengannya.
1. Applications of hmm to textual analysis
HMM menerapkan sistem ekstraksi bidang yang tidak menggunakan pemrosesan
NLP tujuan umum. Sistem ini dirancang untuk memecahkan masalah umum yang
dapat ditentukan sebagai berikut: temukan fragmen teks terbaik yang tidak terputus
dari dokumen yang menjawab beberapa pertanyaan spesifik per domain.
Pertanyaan tersebut dinyatakan secara implisit dalam bentuk satu set dokumen

ISYS6333 – Data and Text Mining


pelatihan berlabel, masing-masing berisi satu bidang berlabel. Misalnya, jika
domain terdiri dari kumpulan pengumuman seminar, mungkin tertarik dengan
lokasi seminar yang dijelaskan dalam pengumuman yang diberikan. Kemudian
koleksi pelatihan harus berisi lokasi berlabel. Tentu saja mungkin untuk
mengekstrak beberapa bidang dari dokumen yang sama dengan menggunakan
beberapa model yang dilatih secara terpisah. Setiap model, bagaimanapun,
dirancang untuk mengekstrak satu bidang dari satu dokumen.
2. TEG: USING SCFG RULES FOR HYBRID STATISTICAL–KNOWLEDGE-BASED IE
Pendekatan lain telah dijelaskan yang menggunakan model ekstraksi informasi statistik dan
pengetahuan berbasis hibrida yang dapat mengekstraksi entitas dan relasi di tingkat kalimat.
Model ini mencoba untuk mempertahankan dan meningkatkan tingkat akurasi tinggi sistem
berbasis pengetahuan sementara secara drastis mengurangi jumlah kerja manual dengan
mengandalkan statistik yang diambil dari korpus pelatihan. Implementasi model, yang disebut
trainable extraction grammar (TEG), dapat diadaptasi untuk setiap domain IE dengan menulis
serangkaian aturan yang sesuai dalam bahasa ekstraksi berbasis SCFG dan melatih mereka
menggunakan korpus beranotasi.
3. Bootstrapping
Pendekatan bootstrapping sangat berguna untuk membangun leksikon semantik untuk suatu
variasi kategori. Pendekatan ini cocok terutama untuk proses semiotomatis karena ketepatan dan
ingatan yang bisa kita dapatkan jauh dari sempurna. Bootstrapping bermanfaat sebagai alat untuk
digunakan bersama-sama dengan pembelajaran mesin lainnya atau pendekatan berbasis aturan
untuk ekstraksi informasi.

ISYS6333 – Data and Text Mining


DAFTAR PUSTAKA

These slides have been adapted from Feldman, R , James S. (2007). The Text Mining
Handbook. First edition. Cambridge University Press. New York

ISYS6333 – Data and Text Mining

Anda mungkin juga menyukai