Week ke - 10
OUTLINE MATERI :
import numpy as np
transmat = np.array([[0.7, 0.2, 0.1], [0.3, 0.5, 0.2], [0.3, 0.3, 0.4]])
Pendekatan lain telah dijelaskan yang menggunakan model ekstraksi informasi statistik dan
pengetahuan berbasis hibrida yang dapat mengekstraksi entitas dan relasi di tingkat kalimat.
Model ini mencoba untuk mempertahankan dan meningkatkan tingkat akurasi tinggi sistem
berbasis pengetahuan sementara secara drastis mengurangi jumlah kerja manual dengan
mengandalkan statistik yang diambil dari korpus pelatihan. Implementasi model, yang disebut
trainable extraction grammar (TEG), dapat diadaptasi untuk setiap domain IE dengan menulis
serangkaian aturan yang sesuai dalam bahasa ekstraksi berbasis SCFG dan melatih mereka
menggunakan korpus beranotasi. Sistem tidak mengandung komponen linguistik murni apa pun
seperti tagger POS atau parser. Proses ini mendemonstrasikan kinerja sistem pada beberapa
ekstraksi entitas bernama dan tugas ekstraksi relasi. Eksperimen menunjukkan bahwa
pendekatan hibrida mengungguli kedua sistem murni berbasis statistik dan murni dan
membutuhkan perintah-of-besarnya kurang penulisan aturan manual dan sejumlah kecil data
pelatihan. Peningkatan akurasi sedikit untuk tugas ekstraksi entitas bernama dan lebih jelas untuk
ekstraksi relasi. Dengan mencurahkan perhatian pada detail TEG, dapat memberikan rasa
konkret bagaimana sistem tipe hibrida dapat digunakan untuk preprocessing text mining operasi.
Pendekatan bootstrap ke IE mengambil jalan tengah antara teknik pengetahuan dan pendekatan
pembelajaran mesin. Gagasan utama di balik pendekatan ini adalah bahwa pengguna
memberikan beberapa bias awal baik dengan menyediakan leksikon awal kecil atau sejumlah
kecil aturan untuk menginduksi contoh awal. Pendekatan bootstrap berusaha untuk menghindari
kebutuhan corpus beranotasi, yang bisa sangat mahal dan memakan waktu untuk menghasilkan.
1. Pengguna menyediakan dua set dokumen, menarik (I) dan noninterestin (N).?
2. Parsing Dangkal dilakukan untuk semua dokumen, dan, atas dasar template yang telah
ditentukan semua pola yang cocok dengan salah satu templat diekstraksi (EP).?
3. Untuk setiap pola ekstraksi dalam EP, kami menghitung relevansi pola: di mana # (I, Pat)
adalah jumlah dokumen dalam koleksi dokumen I yang berisi pola P.
4. Kami menghitung pentingnya setiap pola ekstraksi dalam EP sesuai dengan rumus berikut dan
memberi peringkat dalam urutan menurun:
Imp (Pat) = Rel (Pat) log2 (# (D, Pat)).
Mutual Bootstrapping
Jauh mirip dengan AutoSlog-TS, korpus diproses dan semua pola ekstraksi yang mungkin
dihasilkan bersama dengan frase nomina yang diekstrak oleh mereka.
Tujuan utama dari pendekatan ini adalah untuk memperluas leksikon awal dan mempelajari pola
ekstraksi yang akurat yang dapat mengekstrak contoh untuk leksikon.
Initialization
N = total number of extraction patterns
EPi = one extraction pattern (i = 1..N)
EPData = a list of pairs (EPi, Noun Phrases generated by the EPi)
SemLex = the list of seed words (the initial lexicon)
EPlist = {}
Metabootstrapping
Salah satu masalah utama yang dihadapi dengan bootstrapping bersama adalah bahwa sekali kata
ditambahkan ke leksikon yang bukan milik kategori semantik, efek domino dapat dibuat,
memungkinkan pola ekstraksi yang salah untuk menerima skor tinggi dan dengan demikian
menambahkan lebih banyak entri yang salah ke leksikon. Untuk mencegah masalah ini, Riloff
dan Jones menyarankan menggunakan metode lain yang disebut metabootstrapping, yang
memungkinkan lebih baik kontrol butir atas contoh yang ditambahkan ke leksikon. Dalam
metabootstrapping, hanya lima instance teratas yang diekstrak dengan menggunakan pola
ekstraksi terbaik dipertahankan dan ditambahkan ke lexicon semantik permanen. Semua contoh
lainnya dibuang. Contoh dihitung dengan menghitung, untuk masing-masing Misalnya, berapa
banyak pola ekstraksi yang dapat mengekstraknya. Secara formal, nilai contoh Ij dihitung
sebagai berikut:
Setelah contoh baru ditambahkan ke leksikon semantik permanen, yang saling bootstrapping
dimulai dari awal. Sebuah pandangan skematis dari aliran proses metabootstrapping disajikan.
Tiga kategori semantik diekstrak dari "halaman Web" (lokasi, nama perusahaan, dan judul
orang), dan dua kategori semantik diekstraksi dari artikel yang berhubungan dengan teror (lokasi
dan senjata). Algoritma metabootstrapping dijalankan untuk 50 iterasi. Selama setiap iterasi,
bootstrapping bersama dijalankan hingga menghasilkan 10 pola yang mengekstraksi setidaknya
satu contoh baru yang dapat ditambahkan ke leksikon .
import numpy as np
import bootstrapped.bootstrap as bs
mean = 100
stdev = 10
stat_func=bs_stats.mean))
print(bs.bootstrap(samples, stat_func=bs_stats.std))
Bidang terkait NLP, IE, kategorisasi teks, dan pemodelan probabilistic berkembang pesat dalam
beberapa tahun terakhir. Pendekatan baru dicoba terus-menerus dan sistem baru dilaporkan
berjumlah ribuan per tahun. sebagian besar Lapangan tetap merupakan sains eksperimental -
pendekatan atau peningkatan baru dipahami dan sistem dibangun, diuji, dan dilaporkan. Namun,
pekerjaan yang relatif sedikit adalah dilakukan dalam menganalisis hasil dan membandingkan
sistem dan pendekatan dengan masing-masing lain. Biasanya, tugas para penulis sistem tertentu
untuk membandingkannya dengan pendekatan lain yang diketahui, dan ini menghadirkan
kesulitan - baik secara psikologis maupun metodologis.
Salah satu alasan kurangnya kerja analitis, tidak termasuk kurangnya suara secara umum
landasan teoritis, adalah bahwa eksperimen perbandingan memerlukan perangkat lunak, yang
biasanya tidak mungkin atau sangat mahal untuk didapatkan. Apalagi, perangkat lunak
membutuhkan integrasi, penyesuaian, dan mungkin pelatihan untuk setiap penggunaan baru,
yang juga sangat penting mahal dalam hal waktu dan tenaga manusia.
Oleh karena itu, deskripsi tentang berbagai solusi yang mungkin untuk masalah dijelaskan dalam
bagian pertama tidak lengkap karena kebutuhan. Terlalu banyak sistem yang dilaporkan, dan
seringkali tidak ada alasan yang baik untuk memilih salah satu pendekatan yang lain. Oleh
karena itu, telah mencoba mendeskripsikan secara mendalam hanya sejumlah kecil sistem.
Proses yang telah memilih seleksi seluas mungkin, mencakup banyak pendekatan berbeda. Dan,
tentu saja, hasil yang dihasilkan oleh sistem adalah negara seni atau cukup dekat dengannya.
1. Applications of hmm to textual analysis
HMM menerapkan sistem ekstraksi bidang yang tidak menggunakan pemrosesan
NLP tujuan umum. Sistem ini dirancang untuk memecahkan masalah umum yang
dapat ditentukan sebagai berikut: temukan fragmen teks terbaik yang tidak terputus
dari dokumen yang menjawab beberapa pertanyaan spesifik per domain.
Pertanyaan tersebut dinyatakan secara implisit dalam bentuk satu set dokumen
These slides have been adapted from Feldman, R , James S. (2007). The Text Mining
Handbook. First edition. Cambridge University Press. New York