Anda di halaman 1dari 6

Tugas IR : Upload hasil teks mining dari studi kasus yang ada di PPT

REXY TAVARA ZAIN (16.55201.000799)


FTI SORE SEMESTER V

DOKUMEN 1
 pembukaan daftar wisuda dan pelaksanaan nya lebih baik d umumkan di web UNMER
tidak hanya di fakultas. sehingga memudahkan mahasiswa yang ada di luar kota.
pelaksanaan wisuda sebaiknya terjadwal tidak tergantung pada kuota. sehingga lebih
cepat mendapat ijazah.
Text Preprocessing
1. Tahap Parsing
(tidak perlu)
2. Tahap Lexical Analysis (Tokenization)
a) Proses case folding, dimana semua huruf diubah menjadi huruf kecil,
proses cleaning (membersihkan dokumen dari komponen-komponen yang tidak
memiliki hubungan dengan informasi yang ada pada dokumen, seperti tag html, link,
dan script )
penghilangan angka, tanda baca dan karakter selain huruf alfabet

pembukaan daftar wisuda dan pelaksanaan nya lebih baik di umumkan di


web unmer tidak hanya di fakultas sehingga memudahkan mahasiswa yang
ada di luar kota pelaksanaan wisuda sebaiknya terjadwal tidak tergantung
pada kuota. sehingga lebih cepat mendapat ijazah

b) Proses tokens,type dan term


 Tokens (memisahkan kata tanpa mempertimbangkan adanya duplikasi)

pembukaan hanya sebaiknya


daftar di terjadwal
wisuda fakultas tidak
dan sehingga tergantung
pelaksanaannya memudahkan pada
lebih mahasiswa kuota.
baik yang sehingga
di ada lebih
umumkan di cepat
di luar mendapat
web kota ijazah
unmer pelaksanaan
tidak wisuda
 Type (token yang memperhatikan adanya duplikasi kata)

pembukaan unmer kota


daftar tidak terjadwal
wisuda hanya tergantung
dan fakultas pada
pelaksanaannya sehingga kuota
lebih memudahkan lebih
baik mahasiswa cepat
di yang mendapat
umumkan ada ijazah
web luar

 Term : type yang sudah dinormalisa (stemming)

buka unmer jadwal


daftar tidak gantung
wisuda hanya pada
laksana fakultas kuota
lebih mudah lebih
baik mahasiswa cepat
di yang dapat
umum ada ijazah
web luar
tidak kota

3. Tahap Stopword Removal (filtering)


Yaitu tahap mengambil kata-kata penting dari hasil token.
Bisa menggunakan algoritma stoplist (membuang kata kurang penting) atau wordlist
(menyimpan kata penting). Stoplist/stopword adalah kata-kata yang tidak deskriptif yang dapat
dibuang dalam pendekatan bag-of-words

buka web kota


daftar unmer jadwal
wisuda tidak gantung
laksana fakultas kuota
lebih mudah cepat
baik mahasiswa dapat
umum ada ijazah
luar
4. Tahap Phrase Detection (dilakukan tokenisasi per kata, namun juga mendeteksi adanya
2 kata atau lebih yang menjadi frase)
dalam paragrap diatas terdapat 2 frase :
 web unmer
 pelaksanaan wisuda
5. Tahap Stemming
Sudah dibahas di tahap TERM

DOKUMEN 2
 dalam setahun belakangan ini, pengaksesan KRS diganti ke SIAM (sebelumnya
menggunakan SINERGI). saat menggunakan sinergi, fitur serta kecepatan akses sangat
handal dan nyaman. tapi setelah diganti menggunakan SIAM, keadaan berbalik menjadi
buruk (lambat loading dan bahkan sampai logout dengan sendirinya). *KRS tidak hanya
berpengaruh bagi mahasiswa semester muda tapi juga keseluruhan mahasiswa.

Text Preprocessing
1. Tahap Lexical Analysis (Tokenization)
a) Proses case folding

dalam setahun belakangan ini pengaksesan krs diganti ke siam sebelumnya menggunakan
sinergi saat menggunakan sinergi fitur serta kecepatan akses sangat handal dan nyaman
tapi setelah diganti menggunakan siam keadaan berbalik menjadi buruk lambat loading
dan bahkan sampai logout dengan sendirinya krs tidak hanya berpengaruh bagi
mahasiswa semester muda tapi juga keseluruhan mahasiswa

b) Proses tokens,type dan term

dalam sangat bahkan


tahun handal sampai
belakang dan logout
ini nyaman dengan
akses tapi sendiri
krs setelah krs
ganti ganti tidak
ke guna hanya
belum siam pengaruh
sinergi ada bagi
saat balik mahasiswa
sinergi jadi semester
fitur buruk muda
serta lambat tapi
cepat loading juga
akses dan seluruh
2. Tahap Stopword Removal (filtering)

tahun cepat logout


belakang akses sendiri
akses handal krs
krs nyaman pengaruh
ganti siam mahasiswa
belum balik semester
sinergi buruk muda
sinergi lambat seluruh
fitur loading

3. Tahap Phrase Detection,frase yang terdapat pada dokumen diatas :


 pengaksesan krs
 sinergi fitur
 kecepatan akses
 semester muda
 keseluruhan mahasiswa

DOKUMEN 3
 Assalamualaikum Wr. Wb. yang menjadi salah satu syarat untuk bisa ujian kompre ada
sertifikat TOEIC, sehingga jika belum lulus toeic maka tidak bisa melakukan ujian
kompre. saya rasa ini sangat menghambat teman-teman yang memang lemah dibidang
bahasa inggris (atau yang kurang beruntung dalam ujian toeic-nya). sehingga mereka
tidak bisa fokus untuk ujian kompre-nya. terima kasih..4pak/bu dosen saya mau minta
keringanan biaya proposional dan spp ,soalnya ibu saya keberatan dengan biaya itu?
terima kasih atas perhatiannya.

1. Tahap Lexical Analysis (Tokenization)


a) Proses case folding

assalamualaikum wr wb yang menjadi salah satu syarat untuk bisa ujian kompre ada
sertifikat toeic sehingga jika belum lulus toeic maka tidak bisa melakukan ujian kompre
saya rasa ini sangat menghambat teman teman yang memang lemah dibidang bahasa
inggris atau yang kurang beruntung dalam ujian toeicnya sehingga mereka tidak bisa
fokus untuk ujian komprenya terima kasih pak bu dosen saya mau minta keringanan
biaya proposional dan spp soalnya ibu saya keberatan dengan biaya itu terima kasih
atas perhatiannya
b) Proses tokens,type dan term

assalamualaikum ujian ujian


wr saya terima
wb rasa kasih
yang ini pak
jadi sangat bu
salah hambat dosen
satu teman saya
syarat memang mau
untuk lemah minta
bisa bidang ringan
ujian bahasa biaya
kompre inggris proposional
ada atau dan
sertifikat kurang spp
toeic untung soal
hingga dalam berat
jika ujian dengan
belum mereka biaya
lulus tidak itu
maka bias atas
tidak fokus hati
laku untuk

2. Tahap Stopword Removal (filtering)

salah hambat dosen


satu teman minta
syarat lemah ringan
bisa bidang biaya
ujian bahasa proposional
kompre inggris spp
sertifikat kurang soal
toeic untung berat
lulus ujian biaya
laku bisa hati
ujian fokus
rasa ujian

3. Tahap Phrase Detection,


Frase yang terdapat dalam dokumen :
 ujian kompre
 sertifikat toeic

Anda mungkin juga menyukai