Anda di halaman 1dari 10

487

Jurnal Sistem Cerdas & Fuzzy 38 (2020) 487–494


DOI:10.3233/JIFS-179423
Tekan iOS

Penambangan data teks informasi publik


internet dan analisis pengaruh intelijen
untuk pemahaman maksud pengguna
Shaofei Wu a ,b,
a
Laboratorium Utama Robot Cerdas Provinsi Hubei, Institut Teknologi Wuhan, Wuhan, PR Cina b Sekolah
Ilmu dan Teknik Komputer, Institut Teknologi Wuhan, Wuhan, PR Cina

Abstrak .Kami mengusulkan model berbasis SVM, Na¨ive Bayes dan deep learning untuk memecahkan masalah
klasifikasi niat konsumsi. Menerapkan penambangan niat konsumsi untuk tugas prediksi di media sosial. Makalah ini
membahas niat konsumsi terhadap jenis produk tertentu, yaitu film, dan menggunakan niat konsumsi film sebagai fitur
penting dalam prediksi box office. Kami menggabungkan niat konsumsi dengan fitur tradisional yang digunakan dalam
masalah prediksi box office, dan mencapai hasil yang mengungguli pekerjaan sebelumnya dari masalah ini Kami
membangun sistem berdasarkan regresi linier yang secara otomatis memprediksi total box office film dan pembukaan box
office akhir pekan satu hari sebelum tanggal rilis film tersebut.

Kata kunci: Text Intention Mining, SVM, Deep Learning

1. Perkenalan

Pertumbuhan pesat permintaan kalimat bahasa alami membawa tantangan besar bagi mesin pencari
tradisional. Sebagian besar mesin pencari tradisional terutama mengandalkan teknologi pencocokan kata
kunci untuk melakukan pencarian cepat dan kembali ke hasil pencarian pengguna. Mempertimbangkan kueri
kalimat bahasa alami seperti dijelaskan di atas, tanpa memahami maksud semantik kueri, mesin pencari
mungkin hanya mengembalikan dokumen yang cocok dengan kata kunci kueri pengguna, daripada
mengembalikan informasi yang benar-benar ingin ditemukan pengguna. Namun, ketika diketahui bahwa
pengguna menanyakan maksud semantik (misalnya pencarian restoran) dan pada saat yang sama mengetahui
arti spesifik dari setiap komponen kueri (misalnya "Restoran Prancis" adalah kata inti pencarian, "terbaik"
adalah kendala). Kemudian mesin pencari dapat mencari kueri menurut a pola tertentu dan mengembalikan
hasil yang paling relevan dan diperlukan kepada pengguna, tidak hanya mengembalikan hasil dari beberapa
kata terkait dalam kueri. Oleh karena itu, salah satu faktor yang diperlukan untuk pengembangan dan
peningkatan lebih lanjut dari sistem mesin pencari adalah pemahaman maksud kueri. Dalam beberapa tahun
terakhir, masalah pemahaman maksud semantik kueri secara bertahap menarik lebih banyak perhatian. Karya
makalah ini berfokus pada pemahaman maksud semantik dari kueri bahasa alami untuk bidang pencarian peta.

Untuk pengenalan niat bisnis pada Query, metode yang digunakan dalam makalah ini adalah dengan
menggunakan Query itu sendiri, antarmuka hasil pencarian mesin pencari dan konten lainnya sebagai sumber
data, dan kemudian menerjemahkan masalah tersebut ke dalam masalah pengenalan niat bisnis di halaman
web. Kemudian, Derek Hao Hu [1–3] dan yang lainnya melakukan penelitian lebih lanjut tentang identifikasi
maksud komersial pada Query. Menimbang bahwa karya Honghua Kai hanya menganalisis Query itu sendiri
tanpa mempertimbangkan pengguna kebutuhan individu, mereka mengusulkan algoritma POINT ( deteksi
niat bisnis online yang dipersonalisasi). Algoritme menggabungkan kueri pengguna dengan profil pengguna
(termasuk riwayat pencarian pengguna, dll.) berdasarkan bidang acak bersyarat. Selain itu, Ashcan dan Clarke
[4–6] dan lainnya menggunakan perilaku klik-tayang pengguna, dan Guo dan Agichtein [7–9] menggunakan
klik dan gulir mouse pengguna untuk melakukan pengenalan niat bisnis online. Namun, pekerjaan di atas
didasarkan pada data di mesin pencari, dan pada dasarnya berbeda dari pengenalan niat konsumen di Weibo.
Ada banyak penelitian tentang pengenalan niat bisnis online (OCI). Pada tahun 2006, konsep iklan komersial
online pertama kali diusulkan oleh Honghua Kai [10-13] dan lainnya.
Kroll dan Strohmaier [14–16] pertama kali mendefinisikan konsep baru: Analisis Maksud, yang merupakan
analisis maksud. Dalam artikel 2009, mereka berpendapat bahwa analisis maksud adalah masalah yang agak
mirip dengan analisis sentimen dan memperlakukannya sebagai masalah klasifikasi multivariat. Kemudian di
artikel 2013, Hollerit dan Kroll¨ [17–19] dan lainnya mempelajari niat konsumsi di Weibo. Niat konsumsi
yang ditentukan harus menyertakan setidaknya satu kata kunci niat konsumen, seperti lelang, beli, murah, dll.,
yang lebih dekat dengan kategori "niat konsumsi eksplisit yang mengandung pemicu niat konsumen" dalam
sistem klasifikasi ini. Kemudian, klasifikasi niat konsumsi dilakukan dengan metode seperti SVM dan Na¨ive
Bayes, dan akhirnya mencapai akurasi sekitar 57%. Pada 2013, Zhiyuan Chen [20-23] dan yang lainnya
mengusulkan konsep "penambangan teks yang disengaja di forum online". Mereka melakukan intent mining
di forum online, misalnya: “Saya ingin membeli kamera.” Definisi niat mereka mirip dengan niat konsumsi
eksplisit dari pemicu niat konsumen seperti yang didefinisikan dalam artikel ini. Mereka mengusulkan
ekspresi niat yang berbeda untuk bidang yang berbeda, dan berdasarkan ide ini, mengusulkan algoritma
penambangan niat berdasarkan pembelajaran migrasi. Dalam makalah ini, algoritme yang mereka usulkan
diimplementasikan dan dibandingkan dengan algoritme penambangan niat konsumen berbasis pembelajaran
mendalam. Selain itu, Jinpeng Wang [24-26] dan yang lainnya mengusulkan masalah produk terkait tren
penambangan dari Weibo. Mereka mendefinisikan "tren" sebagai topik yang hangat dibahas oleh pengguna di
Weibo. Misalnya, jika seseorang mengatakan di Weibo bahwa “udara di Beijing sangat buruk akhir-akhir ini”,
mereka berharap untuk menggali produk yang terkait dengan pembersih udara, masker, dll. dari tren udara
yang buruk. Oleh karena itu, karya mereka menggali sebuah produk yang terkait dengan tren tertentu, dan niat
konsumsi produk, dapat dianggap sebagai kasus khusus dari penelitian niat konsumsi dalam makalah ini.

2. Model bidang acak bersyarat

The Conditional Random Field Model (CRF) pertama kali diusulkan oleh Lafferty et al. [27-28], yang
merupakan model grafik tidak berarah, yaitu, satu set variabel acak keluaran di bawah set variabel acak
masukan yang diberikan. Model distribusi probabilitas bersyarat, yang mengasumsikan bahwa variabel acak
keluaran merupakan bidang acak Markov, memiliki aplikasi dalam pengenalan entitas bernama, segmentasi
kata Cina, anotasi dan tugas pemrosesan bahasa alami lainnya, dan memiliki kinerja yang baik.
Bagian ini terutama memperkenalkan teori medan acak bersyarat, termasuk definisi medan bersyarat, dan
berbagai metode representasi.

2.1. Definisi model medan acak bersyarat

Misalkan X dan Y adalah variabel acak, dan.P (Y|X) adalah distribusi probabilitas bersyarat dari Y di
bawah kondisi X yang diberikan. Jika variabel acak Y merupakan bidang acak Markov yang diwakili oleh
grafik tidak berarah G = (V, E),

P(Y | X ,Y , ω / = ) = P(Y | X , Y , ω ) (1)


Untuk setiap simpul v yang akan dibuat, distribusi probabilitas bersyarat disebut kebetulan. P (Y|X) adalah
medan acak bersyarat. Dimana _ menyatakan bahwa G = (V,E) adalah semua simpul w yang terhubung
dengan simpul v pada graf G, / = menyatakan semua simpul kecuali simpul v, dan Y dan Y adalah simpul v dan
variabel acak sesuai dengan w
Pada kenyataannya, umumnya diasumsikan bahwa X dan Y memiliki struktur grafik yang sama, dan rantai
linier yang ditunjukkan pada dua gambar berikut digunakan.
Kemudian, dengan asumsi bahwa P(Y, X) adalah bidang acak kondisi rantai linier, probabilitas bersyarat
bahwa variabel acak Y mengambil nilai y memiliki bentuk berikut di bawah kondisi bahwa variabel acak
memiliki nilai x:

Dimana t k fungsi fitur didefinisikan di tepi, disebut fitur transisi, tergantung pada posisi saat ini dan
sebelumnya, dan s l adalah fungsi fitur yang didefinisikan pada node, disebut fitur keadaan, tergantung pada
posisi saat ini. Baik t k dan s l bergantung pada posisi dan merupakan fungsi fitur lokal. Umumnya, fungsi fitur
t k dan s l memiliki nilai 1 atau 0, dan ketika kondisi fitur terpenuhi, nilainya adalah 1, dan sebaliknya adalah 0.
Bidang acak bersyarat sepenuhnya ditentukan oleh bobot k dan u l dari fungsi karakteristik t k , s l .

2.2. Algoritma pembelajaran bidang pembelajaran bersyarat

Bagian ini membahas masalah estimasi parameter model medan acak bersyarat untuk kumpulan data
pelatihan yang diberikan, yaitu masalah pembelajaran medan acak bersyarat. Model bidang acak bersyarat
sebenarnya adalah model log-linier yang ditentukan pada data deret waktu, dan metode pembelajarannya
mencakup estimasi kemungkinan maksimum dan estimasi kemungkinan maksimum yang diatur. Algoritma
implementasi optimasi spesifik telah meningkatkan metode skala iteratif IIS, metode penurunan gradien dan
metode quasi-Newton. Kami memilih algoritma BFGS dari metode Newton yang diusulkan untuk pengenalan
singkat.
Pembelajaran model medan acak bersyarat dapat menerapkan metode Newton atau metode kuasi-Newton.
Untuk model medan acak bersyarat.

Fungsi tujuan belajar adalah:


) (5)
Fungsi gradiennya adalah:

g(
Algoritma BFGS metode Newton adalah sebagai berikut:
Masukan: fitur fungsi f 1 ,f 2 ,...,f n , Distribusi empiris adalah P˜ (x,y)
Output: Nilai parameter optimal P ( y,x)

1) Awalnya dipilih titik 0 , dengan mengambil B 0 sebagai matriks simetri pasti positif, atur k = 0;
2) Hitung g(k) = k , jika g(k) = 0, berhenti, jika tidak, putar ke (3);

3) Dapatkan p k dari B k p k = g k ;
4) Pencarian satu dimensi :dapatkanλ k ketika f(ω (k) + k p k ) = min 0 f(ω (k ) + p k )
5) Tetapkan ;
6) Hitung g k + 1 = g(ω (k + 1) ), jika g k = 0, stop, atau dapatkan B k + 1 dengan:
T T
B

7) Dimana ,
y k= g k+1 g k, k= k + 1 ( k) _
Atur k = k+1, putar ke (3).

3. Metode pemahaman maksud kueri berbasis SVM terstruktur

Bagian ini menjelaskan representasi maksud semantik berdasarkan kalimat bahasa alami. Pertama,
representasi maksud semantik dari kueri kalimat bahasa alami diperkenalkan. Kemudian, tata bahasa yang
menghasilkan maksud semantik diperkenalkan. Akhirnya, analisis maksud permintaan kalimat bahasa alami
diubah menjadi masalah prediksi struktural, dan algoritma pembelajaran yang sesuai diberikan. Secara umum,
tugas yang didefinisikan dalam bab ini adalah untuk memetakan kueri kalimat bahasa alami ke dalam
representasi maksud semantik yang sesuai. Perhatikan bahwa kami adalah tata bahasa berdasarkan definisi
konteks pencarian tertentu. Dengan mendefinisikan ulang tata bahasa yang sesuai dengan situasi yang
diinginkan, metode yang diusulkan dalam makalah ini dapat digeneralisasi ke skenario pencarian lainnya.
3.1. Algoritma pembelajaran berbasis SVM terstruktur

Secara umum, ukuran kebenaran dari pohon parse prediktif adalah nilai F1 (misalnya, karya Johnson [29]).
Secara khusus, rata-rata harmonik dari laju yang benar dan laju penarikan dihitung berdasarkan simpul yang
tumpang tindih di antara pohon-pohon. Kami akan menggunakan jenis fungsi kerugian ini dan
memperkenalkan fungsi kerugian 0-1 standar sebagai ukuran tolok ukur. Misalkan z dan z i adalah dua pohon
parse keluaran, dan | z | dan | z saya | adalah jumlah kurung di z dan z i , masing-masing. Misalkan n adalah
jumlah kurung yang sama di kedua pohon. Maka loss function pohon z dan z i dapat dihitung sebagai berikut:

(7)

1 jika z i = / z
nol satu(z i z ) = (8)
0 sebaliknya

3.2. Algoritma maksimalisasi

Perhatikan bahwa fungsi pembelajaran dapat dihitung dengan mencari struktur y Y dengan algoritma
maksimal sehingga maksimal. Untuk melakukan ini, kami menggunakan pengurai
CKY yang dikembangkan oleh Mark Johnson dan mengintegrasikannya ke dalam algoritme kami. 3.3. Hasil
dan analisis

Bagian ini akan memperkenalkan maksud semantik dari pertanyaan kalimat bahasa alami yang diusulkan
dalam makalah ini untuk menunjukkan validitas metode pembelajaran. Kami melakukan dua set percobaan
komparatif. Rangkaian percobaan pertama digunakan untuk mendemonstrasikan kinerja metode pembelajaran
yang diusulkan dalam makalah ini, termasuk tiga indikator evaluasi: tingkat yang benar, tingkat mengingat
dan nilai F1. Rangkaian eksperimen kedua digunakan untuk mengeksplorasi efek dari fungsi kernel terkait
pada hasil pembelajaran. Hasil uji silang pada dataset MSItent dianalisa seperti Tabel 1.
Selain itu, SVM terstruktur dapat menghasilkan beberapa keluaran nilai "NULL" pada set pengujian,
mungkin karena tata bahasa yang dihasilkan oleh SVM terstruktur tidak menurunkan kalimat. Namun secara
umum, metode yang kami usulkan memiliki tingkat recall yang lebih tinggi.
Bab ini mencoba untuk mengeksplorasi makna semantik query kalimat bahasa alami dari a perspektif baru,
yaitu, kueri kalimat bahasa alami diuraikan ke dalam representasi maksud semantik yang sesuai. Pertama,
kami memperkenalkan struktur hierarki untuk mewakili maksud semantik dari kueri kalimat bahasa alami.
Kemudian, metode pembelajaran otomatis untuk ekspresi maksud semantik kueri kalimat bahasa alami
diusulkan, dan kueri kalimat bahasa alami dan yang sesuai dibangun secara manual. Korpus representasi
maksud semantik. Hasil eksperimen pada korpus beranotasi menunjukkan bahwa metode kami mencapai
kinerja yang sangat baik dalam hal akurasi dan nilai F1. Oleh karena itu, kami dapat menyimpulkan bahwa
mesin vektor dukungan terstruktur sangat cocok untuk masalah pembelajaran maksud semantik dari kueri
kalimat bahasa alami. Kami juga menggunakan model bidang acak bersyarat untuk mendapatkan hasil anotasi
semantik dengan akurasi tinggi, yang membawa manfaat untuk prapemrosesan pembelajaran representasi
maksud semantik kueri.
Kelemahan utama dari metode yang diusulkan adalah keterbatasan query urutan kata-kata dalam kalimat
bahasa alami. Kami mencatat bahwa meskipun ini berlaku untuk pemodelan maksud semantik kueri tugas ini,
mungkin lebih bermanfaat untuk mengabaikan batasan ini. Isu ini akan menjadi salah satu arah perkembangan
kita ke depan. Isu lain yang menarik dan sangat penting untuk penelitian di masa depan adalah memperluas
pembelajaran SVM terawasi penuh ke pembelajaran SVM semi-terawasi. Dengan cara ini, maksud semantik
dari kueri bahasa alami dapat dipelajari dengan memproses data beranotasi dan tidak berlabel, yang sangat
menghemat tenaga kerja dan sumber daya material.

Tabel 1
Analisis hasil menggunakan uji silang pada set data MSItent

Parameter Ingat Tes Uji akurasi Tes F1

PCFG 79.10 89,83 84.12

) 83,43 88,05 85,78

) 83.26 88.57 85,47

83,42 88.72 85,97

) 83.01 88.39 85.60

4. Niat Menambang berdasarkan pembelajaran yang mendalam

Pada bab sebelumnya, kami menerapkan pengklasifikasi niat konsumen berbasis SVM dan lebih
meningkatkan kinerja pengklasifikasi dengan memperkenalkan korpus eksternal untuk pembelajaran migrasi.
Namun, dengan mengamati hasil klasifikasi, kami menemukan bahwa pengklasifikasi SVM tidak
mengimplementasikan penambangan informasi tingkat semantik, yang mengarah pada klasifikasi SVM yang
buruk untuk mikroblog yang tidak memiliki kata-kata pemicu niat konsumsi eksplisit. Untuk mengatasi
masalah ini, kami memperkenalkan model klasifikasi niat konsumsi berbasis pembelajaran mendalam, dan
menggabungkannya dengan representasi kata terdistribusi untuk mencapai pemahaman yang lebih dalam
tentang teks Weibo.

4.1. Model representasi kata terdistribusi

Dalam Bab 2, model klasifikasi niat konsumen berbasis SVM, kami menggunakan model tas kata untuk
mewakili kata-kata. Model ini mewakili setiap kata sebagai vektor dengan panjang yang sama dengan panjang
kamus, dan hanya satu dimensi dalam vektor adalah 1, dan semua dimensi lainnya adalah 0, yang kita sebut
representasi Satu-panas. Keuntungan dari representasi One-hot adalah sangat ringkas, tetapi kelemahannya
adalah tidak mewakili fitur semantik itu sendiri, dan kata-kata dan kata-kata sepenuhnya terisolasi. Karena
masalah dengan representasi One-hot, Hinton [30] et al. mengusulkan model representasi kata terdistribusi
(Word Embedding atau Distributed Word Representation) pada tahun 1986. Vektor kata terdistribusi ini
mewakili setiap kata sebagai vektor kata bernilai nyata dari dimensi yang sama (seperti 100 dimensi),
sehingga dapat mewakili lebih banyak informasi daripada representasi Onehot, dan dapat mengekspresikan
beberapa tingkat semantik. Karakteristik.

4.2. Pengantar pembelajaran mendalam

Deep Learning adalah arah baru di bidang pembelajaran mesin. Ide utamanya adalah untuk mempelajari
representasi dan abstraksi yang mendalam dari teks, gambar, ucapan, dan data lainnya. Model yang umum
digunakan untuk deep learning termasuk Auto encoder, Denoising Auto encoder(DAE) [31–34], Stacked
Denoising Auto encoder (SDAE) [35–37], Recursive Auto encoder, Deep Belief Network, Deep Boltzmann
Machine, Recurrent Neural Network dan seterusnya. Saat ini, pembelajaran mendalam telah mencapai hasil
yang sangat baik dalam sejumlah besar tugas pemrosesan bahasa alami. Misalnya, dalam model bahasa,
penandaan bagian-of-speech, segmentasi kata, pengenalan entitas bernama, analisis sentimen, dan tugas
lainnya, model berbasis pembelajaran mendalam mencapai atau mendekati tingkat canggih [38, 39].
Tugas klasifikasi niat konsumsi dan analisis sentimen dalam makalah ini memiliki kesamaan tertentu. Di
bidang analisis sentimen, sebagian besar pekerjaan penelitian didasarkan pada model kantong kata, dan
menggunakan sejumlah besar sumber daya yang dibuat secara artifisial (seperti kamus kata emosional, dll.).
Namun, dalam beberapa tahun terakhir, beberapa pekerjaan penelitian menggunakan representasi kata
terdistribusi dan model pembelajaran mendalam telah muncul dan mencapai hasil yang baik.

4.3. Klasifikasi niat konsumsi berdasarkan representasi kata terdistribusi dan SDAE

Denoising Auto Encoder (DAE) diusulkan oleh Bengio dkk. [11] dan merupakan penyempurnaan dari model
Auto Encoder. DAE memperkenalkan "penghancuran" vektor input untuk memaksa lapisan tersembunyi di
Auto Encoder untuk mempelajari fitur yang lebih canggih. Biasanya, untuk menghancurkan vektor input, kita
dapat secara acak mengatur beberapa input ke 0. DAE pertama-tama mengkodekan input dan kemudian
mencoba memulihkan vektor input asli dari vektor input yang rusak. Dengan cara ini, DAE dapat mempelajari
asosiasi implisit antara beberapa sampel.
Stacked Denoising Auto encoder (SDAE) adalah tumpukan beberapa DAE. Pelatihan SDAE dibagi menjadi
dua langkah:

(1) Lakukan Pra-pelatihan, latih DAE lapis demi lapis dari lapisan pertama, dan gunakan output lapisan ke-
k sebagai input lapisan ke-k+1. Langkah ini tanpa pengawasan.
(2) Lakukan Fine-tuning untuk lebih menyesuaikan parameter di setiap lapisan. Kami menggunakan output
dari lapisan terakhir sebagai masukan ke lapisan regresi logistik dan menambahkan informasi
pengawasan ke lapisan regresi logistik (diperoleh dengan anotasi manual sebelumnya). Setelah itu,
kami melatih seluruh SDAE dan menyesuaikan parameter di semua lapisan tersembunyi.

Kerangka model SDAE yang digunakan dalam bab ini ditunjukkan sebagai Gambar. 1:
Kami pertama melatih encoder otomatis pertama di gambar kiri, yang menerima vektor input asli dan
mendapatkan fungsi encoding c. Setelah itu, kita menggunakan output dari encoder pertama sebagai input dari
encoder kedua untuk mendapatkan fungsi encoding f 2 . Akhirnya, seperti yang ditunjukkan di sebelah kanan,
proses ini diulang, dan jaringan autoencoder denoising bertingkat, SDAE, diperoleh.

Gambar 1. Skema SDAE.

Meja 2
Hasil eksperimen klasifikasi niat konsumen
Model presisi Mengingat F-ukuran
SVM 0,74 0,70 0.72
Naif Bayes 0,75 0,75 0,75
Na¨ıve Bayes+Co-Class 0.73 0,80 0,76
KAMI+SVM 0,77 0,70 0.73
KAMI+LR 0,76 0,75 0,75
SDAE+LR 0.82 0,85 0.83
KAMI+SDAE+LR 0.83 0,85 0,84

4.4. Hasil percobaan

Korpus eksperimental di bagian ini masih merupakan korpus mikroblog di Bagian 2.6. Kami
membandingkan model berikut: Word Embedding+SDAE+Logistic Regression (WE+DAE+LR), SDAE+
Logistic Regression (DAE+LR), Word Embedding+ Logistic Regression (WE+LR), dan Word
Embedding+SVM (WE+SVM) , dan ketiga model pada Bab 2. Hasil eksperimen ditunjukkan pada Tabel 2:
Seperti dapat dilihat dari tabel di atas, pengenalan Word Embedding dapat meningkatkan hasil klasifikasi
secara signifikan, dan model SDAE secara signifikan lebih baik daripada SVM dan Na¨ive Bayes. Kombinasi
WE+SDAE+LR mencapai ukuran F tertinggi.
Bab ini pertama-tama menunjukkan masalah model kantong kata yang digunakan di Bab 2, model
SVM/Na¨ive Bayes, dan kemudian mengusulkan solusi untuk masalah ini menggunakan Word Embedding
dan Stacked Denoising Autoencoder. Hasil eksperimen menunjukkan bahwa Word Embedding dan Stacked
Denoising Autoencoder dapat meningkatkan klasifikasi niat konsumsi, dan kombinasi model Word
Embedding+StackedDenoising Autoencoder+Logistic Regression mencapai klasifikasi niat konsumsi terbaik.

5. Kesimpulan

Penambangan opini memperoleh opini konsumen yang lebih komprehensif untuk konsumen dan bisnis
melalui pengumpulan dan pemrosesan ulasan produk online. Pendapat di komentar berdampak pada niat
konsumen untuk mengkonsumsi, menghindari konsumsi buta, dan mengurangi risiko dalam konsumsi. Pada
saat yang sama, ini juga memfasilitasi pelacakan pendapat pelanggan secara realtime oleh pelanggan, dan
menyesuaikan masalah kualitas produk dan masalah kepuasan layanan untuk meningkatkan kepuasan
pelanggan. Namun, sebagian besar pekerjaan penggalian opini saat ini diarahkan pada pemrosesan teks bahasa
Inggris. Dalam pemrosesan teks Cina, sering kali memiliki tingkat akurasi dan tingkat recall yang lebih
rendah. Makalah ini terutama mempelajari penambangan komentar online Cina. Berdasarkan ulasan hotel,
ulasan buku, dan ulasan komputer, teknik penambangan teks digunakan untuk mengekstrak kata-kata yang
menarik dalam komentar. Berdasarkan penelitian metode yang ada, metode ekstraksi fitur ekstraksi kata,
ekstraksi kata komentar dan penggabungan sinonim dalam review produk Cina ditingkatkan. Makalah ini
memperkenalkan situasi terkini dari penambangan opini komentar produk dan ekstraksi fitur umum dan
metode penggabungan sinonim, dan menganalisis kelebihan dan kekurangan metode ini, dan mengklarifikasi
signifikansi penelitian dan nilai aplikasi praktis dari penambangan teks ulasan produk. Pemrosesan bahasa
alami dari teks komentar bahasa Mandarin diselesaikan berdasarkan platform pemrosesan bahasa alami.
Menurut analisis bahasa alami, teks ulasan dibagi menjadi empat kategori. Mengingat fenomena bahwa
penambangan teks produk produk memiliki efek buruk pada ekstraksi fitur ulasan produk Cina, penelitian ini
berfokus pada metode ekstraksi fitur teks produk. Atas dasar ini, fitur kata komentar produk Cina dan
algoritma ekstraksi kata opini yang lebih baik diusulkan. Dengan menggabungkan kata penghubung dengan
kata fitur dan kata opini yang baru didefinisikan, kata fitur dan kata opini diekstraksi secara komprehensif,
dan ulasan produk diverifikasi melalui eksperimen. Validitas metode ekstraksi kata ciri dan kata opini.
Berdasarkan analisis dan implementasi metode penggabungan sinonim yang ada, untuk memenuhi persyaratan
penggalian ringkasan informasi, kata fitur komentar produk dan kata opini digabungkan berdasarkan kata
sinonim ekstensi hutan. Eksperimen membuktikan bahwa metode tersebut dapat secara efektif meningkatkan
kependekan informasi.
Pengakuan

Pekerjaan ini didukung oleh Yayasan Ilmu Pengetahuan Alam Provinsi Hubei China (Hibah No.
2018CFB681).
Referensi

[1] H. Hanyu dan S. Yu, Dekonvolusi cepat untuk gerakan kabur di sepanjang jalur kabur, Jurnal Teknik Elektro dan Komputer
Kanada-Revue Canadienne De Genie Electrique Et Informatique 40 (4) (2018), 266–274.
[2] H. Zhenghua, Z. Yaozong dan L. Qian. Denoising adaptif spasial untuk gambar angiogram kardiovaskular sinar-X, Pemrosesan
dan Kontrol Sinyal Biomedis 40 (2018), 131–139.
[3] H.Yi-Bin,Z.Ya-JunandC.Han-Xin,PenelitianPeningkatan algoritma ekstraksi tepi potongan persegi panjang, Jurnal Internasional
Fisika Modern C 29 (1) (2018), 77–78.
[4] Y.Xuesong,Z.ZhixinandW.Qinghua,Metode inversi cerdas untuk data besar pra-tumpukan berdasarkan PetaReduce, Computers &
Geosciences 110 (2018), 81–89.
[5] Y. Xuesong, G. Wenyin dan W. Qinghua, Identifikasi sumber kontaminan jaringan distribusi air menggunakan algoritma budaya,
ConcurrencyAndComputation-Practice & Experience 29 (4) (2017): Nomor dokumen: UNSP
e4230
[6] W.Qinghua,W.LipingandZ.Zhixin,Penelitian masalah inversi parameter elastis pre-stack AVO berdasarkan algoritma genetika
hibrida[J], Cluster Computing-The Journal Of Networks Software Tools And Applications 20 (4) (2017), 3173–3183.
[7] W. Qinghua, Z. Zhixin dan Y. Xuesong, Penelitian masalah inversi parameter data seismik prestack berdasarkan algoritma evolusi
diferensial yang ditingkatkan, Cluster Computing-The Journal Of Networks Software Tools And Applications 20 (4) (2017), 2881–
2890.
[8] Y. Zhenghong, Z. Huabing dan L. Cuina, Pencocokan fitur gambar cepat non-kaku untuk UAV pertanian melalui inferensi
probabilistik dengan teknik regularisasi, Komputer dan Elektronik Dalam Pertanian 143 (2017), 79–89.
[9] Y. Xiaogang dan QA Wang, studi numerik 2D aliran kristal cair aktif kutub dalam rongga, Komputer & Cairan 155 (SI) (2017),
33–49.
[10] S. Yu, S. Jie dan H. Xia, metode deblurring citra Poissonian dengan variasi total non-lokal dan batasan regularisasi framelet,
Computers & Electrical Engineering 62 (2017), 319–329.
[11] Y. Xuesong, S. Tao dan W. Qinghua, Algoritme budaya yang ditingkatkan dan aplikasinya dalam pencocokan gambar, Alat dan
Aplikasi Multimedia 76 (13) (2017), 14951–14968.
[12] W. Fan dan Z. Qi-Ling, Estimasi sistemik probabilitas pelimpahan bendungan: Pendekatan jaringan Bayesian, Jurnal Sistem
Infrastruktur 23 (2) (2017): Nomor dokumen: 04016037
[13] Y. Rong, D. Chunling dan Z. Duo, Kontrol semua-optik dari transportasi cahaya lemah dan resonansi seperti Fano menggunakan
teknik probe kontrol dalam sistem rongga mikro pilar-kuantum, Jurnal Fisika Terapan 121 (14) ( 2017): Nomor dokumen: 144303
[14] W. Yue, Y. Changya dan Y. Jianzhong, Algoritme pembuatan jalur pahat berdasarkan teori medan kovarian dan pengoptimalan
fungsi biaya dan penerapannya dalam pemesinan blade, Jurnal Internasional Teknologi Manufaktur Lanjutan 90 (1-4) (2017),
927–943.
[15] Mamta, Review tentang perbandingan model database relasional dan model database lainnya, International Journal of Innovative
Research in Computer and Communication Engineering (IJIRCCE) 6 (8) (2018).
[16] C. Deng, Z. Yan-Duo dan W. Wei, Deteksi kerentanan yang efisien berdasarkan teknik analisis statis pengecekan aturan yang
dioptimalkan, Frontiers Of Information Technology & Electronic Engineering 18 (3) (2017), 332–345.
[17] M. Yong, W. Jiahao dan X. Huihui, Pencocokan fitur gambar yang kuat melalui konsensus spasial renggang progresif, IEEE
Access 5 (2017), 24568–24579.
[18] L. Tao, X. Zixiang dan Z. Yanduo, Superresolusi wajah tangguh melalui representasi peringkat rendah yang dibatasi lokalitas,
IEEE Access 5 (2017), 13103–13117.
[19] Z. Shuiping, T. Xin dan X. Chengyi, Implementasi cepat untuk nilai singular dan dekomposisi nilai eigen berdasarkan FPGA,
Chinese Journal Of Electronics 26 (1) (2017), 132–136.
[20] W. Qinghua, L. Hanmin dan Y. Xuesong, Penelitian algoritma klasifikasi multi-label berdasarkan kecerdasan swarm,
ClusterComputing-TheJournalofNetworksSoftwareTools and Applications 19 (4) (2016), 2075–2085.
[21] W. Haihui, S. Zhihong dan C. Shuangyu, Metode real-time baru untuk deteksi kendaraan bergerak, Jurnal Teknologi Internet 17
(7) (2016), 1501–1509.
[22] H. Hanyu, H. Xia dan Z. Xiuhua, Restorasi gambar nyata multi-bingkai berdasarkan loop ganda dengan estimasi kemungkinan
maksimum alternatif, Pemrosesan Gambar dan Video Sinyal 10 (8) (2016), 1489–1495.
[23] X. Pingjun, Haptics untuk desain produk dan simulasi manufaktur, IEEE Transactions On Haptics 9 (3) (2016), 358–375.
[24] Y.Xuesong,W.QinghuaandV.S.Sheng,Adoubleweighted naive bayes dengan algoritma budaya ceruk untuk klasifikasi multi-label,
Jurnal Internasional Pengenalan Pola Dan Kecerdasan Buatan 30 (6) (2016): Nomor dokumen:1650013
[25] R. Kalal dan M. Tiwari, Sebuah metode yang diusulkan untuk mempersonalisasi dan mengekstrak pengetahuan tersembunyi
melalui penambangan web dan penemuan pola, Jurnal Internasional Penelitian Inovatif di Teknik Komputer dan Komunikasi
(IJIRCCE) 6 (9) (2018).
[26] X. Hua dan J. Liu, Algoritma cepat baru untuk distribusi pseudo Winger-Ville, Jurnal Teknologi Komunikasi Dan Elektronik 60
(11) (2015), 1238–1247.
[27] Z. Ying, W. Yan dan WDS Hill, Pendekatan pemantauan koefisien model deret waktu untuk proses terkontrol, Penelitian &
Desain Teknik Kimia 100 (2015), 228–236.
[28] W.Yuntao,P.XiaobingandS.H.Cheung,Memanfaatkan vektor singular utama untuk estimasi DOA 2D dalam kasus snapshot tunggal
dengan susunan persegi panjang seragam, Jurnal Internasional Antena Dan Propagasi 23 (2015): Nomor dokumen: 681251
[29] Q. Shi-Hong, Y. Fa-Ting dan C. Li, Penelitian tentang peningkatan algoritma MPPT panjang langkah variabel adaptif, Jurnal
Internasional Jaringan Sensor 17 (3) (2015), 139–145.
[30] C. Maithri dan H. Chandramouli, Clustering algorithms for high dimensional data – a survey, International Journal of Innovative
Research in Computer and Communication Engineering (IJIRCCE) 6 (10) (2018).
[31] S. Wu, Sebuah algoritma ekstraksi objek gerak lalu lintas, International Journal of Bifurcation and Chaos 25 (14) (2015): Artikel
Nomor 1540039
[32] S. Wu, M. Wang dan Y. Zou, Penelitian tentang penambangan informasi internet berdasarkan algoritma agen, Sistem Komputer
Generasi Masa Depan 86 (2018), 598–602. [33] Q. Ke, S. Wu, M. Wang dan Y. Zou, Evaluasi efisiensi pengembang berdasarkan
model DEA yang ditingkatkan, Komunikasi Pribadi Nirkabel 12 (4) (2018), 3843–3849.
[34] S. Wu, M. Wang dan Z. Yuntao, Sistem pemantauan informasi limbah berdasarkan sensor nirkabel, Desalinasi Dan Pengolahan
Air 12 (2018), 73–83.
[35] S. Wu, M. Wang dan Y. Zou, Metode komputasi kognitif dua arah yang didukung oleh teknologi cloud, Cognitive Systems
Research 52 (2018), 615–621.
[36] S. Wu, M. Wang, M. Jin, et al., Stabilitas seragam L1 dari persamaan boltzmann inelastis dengan gaya eksternal yang besar untuk
potensial keras, Sistem Dinamis Diskrit Dan Kontinu Seri S 12 (4-5) (2019), 1005 –1013.
[37] Y. Xuesong, L. Hanmin dan Z. Zhixin, Algoritma genetika hibrida untuk masalah desain rekayasa, Komputasi Cluster-Jurnal Alat
dan Aplikasi Perangkat Lunak Jaringan 20 (1) (2017), 263–275.
[38] L. Haibin, L. Shejie dan W. Dianhua, Analisis faktor terikat untuk klasifikasi pose wajah tanpa kendala, OPTIK 127 (23) (2016),
11553–11566.
[39] Estimasi W.Yuntao,A.LeshemandJ.J.Rindom,JointpitchandDOA menggunakan metode ESPRIT, Transaksi IEEE-Acm Pada
Audio Speech And Language Processing 23 (1) (2015), 32–45.

Anda mungkin juga menyukai