NLP Tugas 4

Vincent Andreas 2101635183
To take a little review from last GSLC session. Please find Python code how to handle cliticization in
English!
For example:
if we input “they’re”, then the output will be “they are”
if we input “you’d”, then the output will be “you would”
etc.
What can you do or produce when using FST?
Give an example of how to calculate perplexity score!
Describe further the process of doing smoothing in language!
Instead of n-grams, we have skip-grams. Look for some information about skip-grams, and describe it
here with examples! Compare it with n-grams!
1.
import re
def decontracted(phrase):
# specific
phrase = re.sub(r"won\'t", "will not", phrase)
phrase = re.sub(r"can\'t", "can not", phrase)
# general
phrase = re.sub(r"n\'t", " not", phrase)
phrase = re.sub(r"\'re", " are", phrase)
phrase = re.sub(r"\'s", " is", phrase)
phrase = re.sub(r"\'d", " would", phrase)
phrase = re.sub(r"\'ll", " will", phrase)
phrase = re.sub(r"\'t", " not", phrase)
phrase = re.sub(r"\'ve", " have", phrase)
phrase = re.sub(r"\'m", " am", phrase)
return phrase
test = "Hey I'm Yann, how're you and how's it going ? That's interesting: I'd love to hear more about it."
print(decontracted(test))
# Hey I am Yann, how are you and how is it going ? That is interesting: I would love to hear more about it.
2. yang bisa dilakukan dengan FST adalah
FST sebagai recognizer / pengenal, contohnya : FST yang menggunakan sepasang string sebagai input,
kemudian output akan diterima bila sepasang string itu ada didalam kosakata, bila tidak ada didalam
kosakata, maka akan di reject atau di tolak.
3. Rumus perplexity adalah
Dimana PP adalah perplexity, W adalah word atau kata, P adalah probability atau peluang, sedangkan
w1,22 adalah kata pertama kata kedua, dst. Dan n adalah jumlah kata yang ada
Misalkan kita punya kumpulan angka acak (0 -9), sejumlah 15 buah. Kita harus menghitung berapa
perplexity nya bila setiap kata memiliki peluang 1/15. Maka kita bisa menghitung nya dengan cara :
PP(W) = P(1/15 x 1/15 x 1/15 … (kata ke 15)) -1/ 15
PP(W) = P( (1/15)15 ) -1/15
Karena pangkat dipangkatin, berarti bisa diubah kebentuk perkalian
PP(W) = P( 1/15 15 x -1/15)
PP(W) = P(1/15 -1)
Karena pangkat -1, kita bisa membalik 1/15 menjadi 15/1
Maka PP(W) = 15
4. smoothing dapat dilakukan dengan berbagai cara. Cara pertama adalah cara laplace / addone, yaitu
dengan cara menambahkan satu, sehingga bila terdapat suatu kata yang tidak muncul (dengan frekuensi
0), ketika dihitung tidak akan menjadi 0
Cara yang lain adalah dengan addative smoothing. Konsep nya hampir sama dengan Laplace, hanya saja
yang ditambahkan bukan lah 1, melainkan delta.
Good Turing Smoothing menggunakan frekuensi perhitungan dari NGrams untuk menghitung nilai
maksimal peluang.
Bila Ngram tidak diketahui, maka rumus perhitungan nya adalah
Bila N gram diketahui, maka cara perhitungan nya adalah :
Kneser Key
Metode Knesker Key Smoothing menghitung peluang atau probabilitas ngram berdasarkan histori /
sebelum2 nya.
Katz Smoothing
Menggunakan good-turing Teknik, yang dikombinasikan dengan interpolasi.
Cruch and gale Smoothing
Good-turing teknik yang dikombinasikan dengan bucketing.
 setiap n-gram dimasukan ke salah satu dari beberapa buckets berdasarkan frekuensi nya yang
diprediksi dari lower-order models.
 Good-turing akan dihitung dalam setiap bucket.
5. skipgram adalah kumpulan dari item item yang berasal dari pemenggalan text. Bedanya dengan n gram
adalah : Skipgram mengambil kata kata dengan cara melongkap kata / melewati kata, tidak seperti ngram
yang mengambil kata secara berurutan tanpa ada yang dilewati. Skip gram biasanya digunakan untuk
memodelkan konteks dan sebagai alternative untk peningkatan ukuran training data.
Contoh nya:
"today I go to school"
bi gram akan mengambil menjadi {today I, I go,go to, to School}
sedangkan skip gram memiliki nilai n skip bi gram, dimana n adalah jumlah kata yang bisa di skip.
maka skip gram nya akan menjadi :
0 skip bi gram (tidak ada yang di skip) : {today I, I go,go to, to School}
1 skip = {today go, I to, go School}
2 skip = {today to, I school}
3 skip = {today school}
sehingga nanti nya 3 skip bi gram akan mencakup 3 skip, 2 skip, 1 skip dan 0 skip bi gram

NLP Tugas 4

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

NLP Tugas 4

Diunggah oleh

Hak Cipta:

Format Tersedia

Vincent Andreas 2101635183

if we input “they’re”, then the output will be “they are”

if we input “you’d”, then the output will be “you would”

What can you do or produce when using FST?

Give an example of how to calculate perplexity score!

Describe further the process of doing smoothing in language!

2. yang bisa dilakukan dengan FST adalah

3. Rumus perplexity adalah

PP(W) = P(1/15 x 1/15 x 1/15 … (kata ke 15)) -1/ 15

PP(W) = P( (1/15)15 ) -1/15

Karena pangkat dipangkatin, berarti bisa diubah kebentuk perkalian

PP(W) = P( 1/15 15 x -1/15)

PP(W) = P(1/15 -1)

Karena pangkat -1, kita bisa membalik 1/15 menjadi 15/1

Bila Ngram tidak diketahui, maka rumus perhitungan nya adalah

Bila N gram diketahui, maka cara perhitungan nya adalah :

Menggunakan good-turing Teknik, yang dikombinasikan dengan interpolasi.

Cruch and gale Smoothing

Good-turing teknik yang dikombinasikan dengan bucketing.

bi gram akan mengambil menjadi {today I, I go,go to, to School}

maka skip gram nya akan menjadi :

1 skip = {today go, I to, go School}

2 skip = {today to, I school}

3 skip = {today school}

Anda mungkin juga menyukai