Anda di halaman 1dari 6

AHMAD SYAIFUDDIN

216210524
S2 Teknologi Informasi Email: syaifuddin.skm@gmail.com
Kelas Non-Reguler

Task 1: Web Intelligence


Chapter 6
Transforming Chunks and Trees

1. Filtering insignificant words

Banyak kata-kata yang umum digunakan sering tidak signifikan dalam hal
membedakan makna sebuah frase/kalimat. Misalnya, dalam kalimat "the movie was
terrible", kata yang paling signifikan adalah "movie" dan "terrible", sementara "the"
dan "was" hampir tidak berguna. Kita bisa mendapatkan arti yang sama jika kita
membawa kata yang tidak signifikan keluar, seperti "movie terrible" atau " terrible
movie ". Cara yang baik, sentimen adalah sama. Dalam cara ini, kita akan belajar
bagaimana menghapus kata-kata tidak signifikan, dan menjaga yang signifikan,
dengan melihat part-of-speech tag mereka.

a. Pertama, memutuskan bagian part-of-speech tag yang signifikan dan yang tidak.

Contoh: semua tag diakhiri dengan DT. Ini berarti kita bisa menyaring kata-kata
yang tidak signifikan dengan melihat akhiran tag.

b. Menggunakan/import file transforms.py

Dalam transforms.py ada fungsi yang disebut filter_insignificant (). Butuh


potongan tunggal, yang harus menjadi daftar kata dengan tag, dan mengembalikan
potongan baru tanpa ada kata-kata dengan tag tidak signifikan. Defaultnya adalah
menyaring setiap tag yang diakhiri dengan DT atau CC.

c. Sekarang kita dapat menggunakannya pada versi part-of-speech dengan tag dari "
the movie was terrible ".

a. Berdasarkan hasil percobaan dengan bahasa pemrograman python, menerapkan


import filter_insignificant. Berikut screenshoot dari hasil percobaan:
Dari percobaan diatas, didapatkan 3 kata sebagai input, yaitu the, terrible dan
movie. Karena the diplot sebagai CC maka didapatkan hasil :

[('terrible', 'JJ'), ('movie', 'NN')]

Seperti yang kita lihat, kata "the" dihilangkan dari potongan tersebut.
filter_insignificant() mengiterasi kata-kata yang ditandai dalam potongan
tersebut. Untuk setiap tag, ia akan memeriksa apakah tag yang berakhir dengan
salah satu tag_suffixes. Jika tidak, maka kata dengan tag dilewati. Namun jika tag
disetujui, maka kata dengan tag akan ditambahkan ke potongan yang baru tersebut
akan dikembalikan.

2. Correcting verb forms

Hal ini cukup sering terjadi untuk mencari bentuk-bentuk kata kerja yang salah dalam
bahasa di dunia nyata. Misalnya, bentuk yang benar "is our children learning?"
adalah "are our children learning?". Kata kerja "is" hanya boleh digunakan dengan
kata benda tunggal, sementara "are" adalah untuk kata benda jamak, seperti
"children". Kita dapat memperbaiki kesalahan ini dengan menciptakan pemetaan
koreksi kata kerja yang digunakan tergantung pada apakah ada benda jamak atau
tunggal di potongan tersebut.

a. Menggunakan/import file transforms.py

Dalam file library transforms.py ada fungsi yang disebut correct_verbs


().Menyebarkannya potongan dengan bentuk kata kerja yang salah, dan kita akan
mendapatkan potongan dikoreksi kembali. Menggunakan fungsi pembantu
first_chunk_index () untuk mencari potongan untuk posisi kata tagged pertama
dikembalikan dengan benar.

Ketika kita menyebutnya pada part-of-speech tag "is our children learning"
sepotong, kita kembali pada format yang tepat, "are our children learning".
b. Berdasarkan hasil percobaan dengan bahasa pemrograman python, menerapkan
import correct_verbs. Berikut screenshoot dari hasil percobaan:

c. Kita juga dapat mencoba fungsi ini dengan kata benda tunggal dan kata kerja
jamak yang salah.

Dalam hal ini, "were" menjadi "was" karena "child" adalah kata benda tunggal.

Fungsi correct_verbs ()dimulai dengan mencari kata kerja dalam potongan


tersebut. Jika tidak ada kata kerja ditemukan, potongan dikembalikan dengan tidak
ada perubahan. Setelah kata kerja ditemukan, kita terus kata kerja, tag-nya, dan
indeks dalam potongan tersebut. Kemudian kita melihat di kedua sisi dari kata
kerja untuk mencari kata benda terdekat, mulai di sebelah kanan, dan hanya
mencari ke kiri jika tidak ada benda yang ditemukan di sebelah kanan. Jika tidak
ada benda yang ditemukan di semua, potongan dikembalikan seperti. Tetapi jika
kata benda yang ditemukan, maka kita lookup bentuk kata kerja yang benar
tergantung pada apakah atau tidak kata benda jamak.

3. Swapping verb phrases


Menukar kata-kata di sekitar kata kerja dapat menghilangkan suara pasif dari kalmat
tertentu. Misalnya, "the book was great" bisa diubah menjadi "the book great".

a. Dalam transforms.py ada fungsi yang disebut swap_verb_phrase ().Swap sisi


kanan potongan dengan sisi kiri, menggunakan kata kerja sebagai pivot point. Hal
ini menggunakan fungsi first_chunk_index () untuk mencari kata kerja untuk
poros sekitar.

b. Sekarang kita dapat melihat cara kerjanya pada part-of-speech pada kalimat "the
book was great".

c. Berdasarkan hasil percobaan dengan bahasa pemrograman python, menerapkan


import correct_verbs. Berikut screenshoot dari hasil percobaan:

d. Hasilnya adalah "great the book". Kalimat ini secara jelas bukanlah tata bahasa
yang benar, begitu membaca belajar bagaimana untuk memperbaikinya.

Penyaringan kata signifikan membuat hasil akhir lebih mudah dibaca. Dengan
menyaring baik sebelum atau setelah swap_verb_phrase (), kita mendapatkan
"fantastic gripping book" bukannya "fantastic this gripping book".
Cara baik, kita mendapatkan sepotong tata bahasa yang lebih pendek tanpa
kehilangan makna.

4. Swapping noun cardinals


Pada sebuah potongan, kata-dengan tag kardinal sebagai CD-mengacu pada angka,
seperti "10". kardinal ini sering terjadi sebelum atau sesudah kata benda. Untuk tujuan
normalisasi, dapat berguna untuk selalu menempatkan kardinal sebelum kata benda.

a. Fungsi swap_noun_cardinal () didefinisikan dalam transforms.py. Swap setiap


kardinal yang terjadi segera setelah kata benda dengan kata benda, sehingga
kardinal terjadi segera sebelum kata benda.

b. Mari kita coba pada tanggal, misalnya "10 Desember", dan kalimat umum lainnya
"top 10".

c. Berdasarkan hasil percobaan dengan bahasa pemrograman python, menerapkan


import correct_verbs. Berikut screenshoot dari hasil percobaan:
d. Hasilnya adalah bahwa angka-angka sekarang di depan kata benda, menciptakan
"10 Dec" dan "the 10 top".

Kita mulai dengan mencari tag CD di potongan tersebut. Jika tidak ada CD
ditemukan, atau jika CD adalah pada awal potongan, maka potongan
dikembalikan seperti. Ada juga harus menjadi benda segera sebelum CD. Jika kita
menemukan sebuah CD dengan kata benda yang mendahuluinya, maka kita
menukar benda dan kardinal di tempat.

Anda mungkin juga menyukai