Anda di halaman 1dari 2

10/21/2021 Tokenisasi

In [5]:
# -------------------KELOMPOK 3 ------------------------

#Nama : Anak Agung Ayu Putri Wiratni


#NIM : 190030090
#Pt. Asal : ITB STIKOM Bali
#Mata Kuliah : Natural Language Processing - *P

#Nama : Doni Agung Cahyono


#NPM : 17.0504.0066

#Nama : Banur Anas Ibrahim T.W


#NPM : 17.0504.0021

#Tokenisasi
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'\w+')
filterdText=tokenizer.tokenize('Sarana laboratorium. Laboratorium ilmu komunikasi merup
print(filterdText)

['Sarana', 'laboratorium', 'Laboratorium', 'ilmu', 'komunikasi', 'merupakan', 'sarana',


'penunjuang', 'pembelajaran', 'di', 'prodi', 'ilmu', 'komunikasi', 'Laboratorium', 'in
i', 'dibagi', 'menjadi', 'tiga', 'yaitu', 'Public', 'Relations', 'PR', 'Broadcasting',
'Penyiaran', 'Radio', 'dan', 'Fotografi', 'dan', 'editing', 'Laboratorium', 'hanya', 'di
pergunakan', 'sesuai', 'jadwal', 'perkuliahan', 'yang', 'melibatkan', 'praktik', 'Berbed
a', 'dari', 'laboratorium', 'PR', 'dan', 'fotografi', 'editing', 'laboratorium', 'penyia
ran', 'radio', 'dapat', 'diakses', 'dengan', 'terlebih', 'dahulu', 'berkoordinasi', 'den
gan', 'kepala', 'Radio', 'Unimma', 'FM', 'untuk', 'pengaturan', 'jadwal', 'penggunaan',
'sarana', 'dan', 'prasarana', 'Pengaturan', 'jadwal', 'penggunaan', 'laboratorium', 'dil
akukan', 'oleh', 'Kepala', 'Laboratorium', 'dengan', 'berkoordinasi', 'dengan', 'dosen',
'pengampu', 'mata', 'kuliah']

In [1]:
#Stemming

from nltk.stem import PorterStemmer


e_words = ["cry", "crying", "cried"]
ps = PorterStemmer()
for w in e_words:
rootWord=ps.stem(w)
print(rootWord)

cri
cri
cri

In [6]:
#POS Tagging

import re
import nltk
from nltk import word_tokenize
from nltk import pos_tag

nlp = """Sarana laboratorium. Laboratorium ilmu komunikasi merupakan sarana penunjuang

clean_words = re.sub("[^a-zA-Z]", " ", nlp)


clean_words = " ".join(clean_words.split())

tokens = word_tokenize(clean_words)

file:///C:/Users/ASUS/Downloads/Tokenisasi (2).html 1/2


10/21/2021 Tokenisasi
pos_tokens = pos_tag(tokens)
print(pos_tokens)

[('Sarana', 'NNP'), ('laboratorium', 'NN'), ('Laboratorium', 'NNP'), ('ilmu', 'NN'), ('k


omunikasi', 'NN'), ('merupakan', 'NN'), ('sarana', 'NN'), ('penunjuang', 'NN'), ('pembel
ajaran', 'NN'), ('di', 'NN'), ('prodi', 'NN'), ('ilmu', 'NN'), ('komunikasi', 'NN'), ('L
aboratorium', 'NNP'), ('ini', 'NN'), ('dibagi', 'NN'), ('menjadi', 'NN'), ('tiga', 'N
N'), ('yaitu', 'VBZ'), ('Public', 'JJ'), ('Relations', 'NNPS'), ('PR', 'NNP'), ('Broadca
sting', 'NNP'), ('Penyiaran', 'NNP'), ('Radio', 'NNP'), ('dan', 'NN'), ('Fotografi', 'NN
P'), ('dan', 'NN'), ('editing', 'VBG'), ('Laboratorium', 'NNP'), ('hanya', 'NN'), ('dipe
rgunakan', 'NN'), ('sesuai', 'NN'), ('jadwal', 'NN'), ('perkuliahan', 'NN'), ('yang', 'N
N'), ('melibatkan', 'NN'), ('praktik', 'NN'), ('Berbeda', 'NNP'), ('dari', 'VBZ'), ('lab
oratorium', 'NN'), ('PR', 'NNP'), ('dan', 'NN'), ('fotografi', 'NN'), ('editing', 'VB
G'), ('laboratorium', 'NN'), ('penyiaran', 'NN'), ('radio', 'NN'), ('dapat', 'NN'), ('di
akses', 'VBZ'), ('dengan', 'JJ'), ('terlebih', 'JJ'), ('dahulu', 'NN'), ('berkoordinas
i', 'NN'), ('dengan', 'JJ'), ('kepala', 'NN'), ('Radio', 'NNP'), ('Unimma', 'NNP'), ('F
M', 'NNP'), ('untuk', 'JJ'), ('pengaturan', 'NN'), ('jadwal', 'NN'), ('penggunaan', 'N
N'), ('sarana', 'NN'), ('dan', 'NN'), ('prasarana', 'NN'), ('Pengaturan', 'NNP'), ('jadw
al', 'NN'), ('penggunaan', 'NN'), ('laboratorium', 'NN'), ('dilakukan', 'NN'), ('oleh',
'NN'), ('Kepala', 'NNP'), ('Laboratorium', 'NNP'), ('dengan', 'VBZ'), ('berkoordinasi',
'JJ'), ('dengan', 'JJ'), ('dosen', 'VBN'), ('pengampu', 'NN'), ('mata', 'NN'), ('kulia
h', 'NN')]

file:///C:/Users/ASUS/Downloads/Tokenisasi (2).html 2/2

Anda mungkin juga menyukai