Text Pre Processing v2

Text Pre-Processing
M. Ali Fauzi
Latar Belakang
Latar Belakang
Dokumen-dokumen yang ada

kebanyakan tidak memiliki struktur
yang pasti sehingga informasi di
dalamnya tidak bisa diekstrak secara
langsung.
Tidak semua kata mencerminkan
makna/isi yang terkandung dalam
sebuah dokumen.
Latar Belakang
Dokumen-dokumen yang ada

kebanyakan tidak memiliki struktur
yang pasti sehingga informasi di
dalamnya tidak bisa diekstrak secara
langsung.
Tidak semua kata mencerminkan
makna/isi yang terkandung dalam
sebuah dokumen.
Latar Belakang
Preprocessing diperlukan untuk memilih

kata yang akan digunakan sebagai
indeks
Indeks ini adalah kata-kata yang mewakili
dokumen yang nantinya digunakan untuk
membuat pemodelan untuk Information
Retrieval maupun aplikasi teks mining
lain.aaaaaaaaa
Latar Belakang
Preprocessing diperlukan untuk memilih

kata yang akan digunakan sebagai
indeks
Indeks ini adalah kata-kata yang
mewakili dokumen yang nantinya
digunakan untuk membuat pemodelan
untuk Information Retrieval maupun
aplikasi teks mining lain.
Definisi
Definisi Pemrosesan Teks (Text

Preprocessing) adalah suatu proses
pengubahan bentuk data yang belum
terstruktur menjadi data yang terstruktur
sesuai dengan kebutuhan, untuk proses
mining yang lebih lanjut (sentiment
analysis, peringkasan, clustering dokumen,
etc.).
Singkatnya…
Preprocessing adalah merubah teks

menjadi term index
Tujuan: menghasilkan sebuah set term
index yang bisa mewakili dokumen
Singkatnya…
Preprocessing adalah merubah teks

menjadi term index
Tujuan: menghasilkan sebuah set term
index yang bisa mewakili dokumen
Langkah-langkah
Text Pre-processing
Langkah-langkah umum dalam Text Pre-processing

Langkah 1 : Parsing
Tulisan dalam sebuah dokumen bisa

jadi terdiri dari berbagai macam
bahasa, character sets, dan format;
Sering juga, dalam satu dokumen yang
sama berisi tulisan dari beberapa bahasa.
Misal, sebuah email berbahasa Indonesia
dengan lampiran PDF berbahasa
Inggris.aa
Langkah 1 : Parsing
Tulisan dalam sebuah dokumen bisa

jadi terdiri dari berbagai macam
bahasa, character sets, dan format;
Sering juga, dalam satu dokumen yang
sama berisi tulisan dari beberapa
bahasa. Misal, sebuah email berbahasa
Indonesia dengan lampiran PDF
berbahasa Inggris.
Langkah 1 : Parsing
Parsing Dokumen berurusan dengan

pengenalan dan “pemecahan” struktur
dokumen menjadi komponen-komponen
terpisah. Pada langkah preprocessing ini,
kita menentukan mana yang dijadikan
satu unit dokumen;
Langkah 1 : Parsing
Contoh, email dengan 4 lampiran bisa

dipisah menjadi 5 dokumen : 1 dokumen
yang merepresentasikan isi (body) dari
email dan 4 dokumen dari masing-masing
lampiran
Langkah 1 : Parsing
Contoh lain, buku dengan 100 halaman

bisa dipisah menjadi 100 dokumen;
masing-masing halaman menjadi 1
dokumen
Satu tweet bisa dijadikan sebagai 1
dokumen. Begitu juga dengan sebuah
koemntar pada forum atau review
produk.
Langkah 1 : Parsing
Contoh lain, buku dengan 100 halaman

bisa dipisah menjadi 100 dokumen;
masing-masing halaman menjadi 1
dokumen
Satu tweet bisa dijadikan sebagai 1
dokumen. Begitu juga dengan sebuah
komentar pada forum atau review
produk.
Langkah 2 : Lexical Analysis
Lebih populer disebut Lexing atau

Tokenization / Tokenisasi
Tokenisasi adalah proses pemotongan

string input berdasarkan tiap kata
penyusunnya.
Pada prinsipnya proses ini adalah
memisahkan setiap kata yang
menyusun suatu dokumen.
Tokenisasi adalah proses pemotongan

string input berdasarkan tiap kata
penyusunnya.
Pada prinsipnya proses ini adalah
memisahkan setiap kata yang
menyusun suatu dokumen.
Pada proses ini dilakukan penghilangan

angka, tanda baca dan karakter selain
huruf alfabet, karena karakter-karakter
tersebut dianggap sebagai pemisah
kata (delimiter) dan tidak memiliki
pengaruh terhadap pemrosesan teks.
Pada tahapan ini juga dilakukan proses

case folding, dimana semua huruf
diubah menjadi huruf kecil.
Pada tahapan ini juga Cleaning

Cleaning adalah proses membersihkan
dokumen dari komponen-komponen
yang tidak memiliki hubungan dengan
informasi yang ada pada dokumen,
seperti tag html, link, dan script
Pada tahapan ini juga Cleaning

Cleaning adalah proses membersihkan
dokumen dari komponen-komponen
yang tidak memiliki hubungan dengan
informasi yang ada pada dokumen,
seperti tag html, link, dan script, dsb.
Tokens, Types, and Terms
Text: “apakah culo dan boyo bermain

bola di depan rumah boyo?”
Token adalah kata-kata yang dipisah-
pisah dari teks aslinya tanpa
mempertimbangkan adanya duplikasi
Tokennya: “culo”, “dan”, “boyo”,
“bermain”, “bola”, “di”, “depan”,
“rumah”, “boyo”

Token adalah kata-kata yang dipisah-
Tokennya: “culo”, “dan”, “boyo”,

Token adalah kata-kata yang dipisah-
Token: “culo”, “dan”, “boyo”,

Type adalah token yang
memperhatikan adanya duplikasi kata.
Ketika ada duplikasi hanya dituliskan
sekali saja.
Type: “culo”, “dan”, “boyo”, “bermain”,
“bola”, “di”, “depan”, “rumah”

Type adalah token yang
memperhatikan adanya duplikasi kata.
Ketika ada duplikasi hanya dituliskan
sekali saja.
Type: “culo”, “dan”, “boyo”, “bermain”,


Term adalah type yang sudah
dinormalisasi (dilakukan stemming,
filtering, dsb)
Term : “culo”, “boyo”, “main”, “bola”,
“depan”, “rumah”

Term adalah type yang sudah
dinormalisasi (dilakukan stemming,
filtering, dsb)
Term : “culo”, “boyo”, “main”, “bola”,

Term: “culo”, “boyo”, “main”, “bola”,
Contoh Tokenisasi
Teks English They are applied to the words in the texts.

they
are
applied
to
Tokens the
words
in
the
texts
Contoh Tokenisasi
Teks Bahasa Namanya adalah Santiago. Santiago sudah

memutuskan untuk mencari sang alkemis.
namanya
adalah
santiago
santiago
Tokens sudah
memutuskan
untuk
mencari
sang
alkemis
Langkah 3 : Stopword Removal
Disebut juga Filtering

Filtering adalah tahap pengambilan dari
hasil token, yaitu kata-kata apa saja yang
akan digunakan untuk merepresentasikan
dokumen.
Langkah 3 : Stopword Removal
Disebut juga Filtering

Filtering adalah tahap pemilihan kata-
kata penting dari hasil token, yaitu kata-
kata apa saja yang akan digunakan
untuk mewakili dokumen.
Stopword Removal : Metode
Algoritma stoplist
Stoplist atau stopword adalah kata-
kata yang tidak deskriptif (tidak
penting) yang dapat dibuang dengan
pendekatan bag-of-words.
Stoplist atau stopword adalah kata-
penting) yang dapat dibuang dengan
Kita memiliki database kumpulan kata-
penting), kemudian kalau hasil
tokenisasi itu ada yang merupakan kata
tidak penting dalam database tersebut,
maka hasil tokenisasi itu dibuang.
Contoh stopwords adalah i’m, you,
one, two, they, are, to, the, in, dst.
Hasil Token Hasil Filtering

they -
are -
applied applied
to -
the -
words words
in -
the -
texts texts
Contoh stopwords adalah untuk, sang,
sudah, adalah, dst.

namanya namanya
adalah -
santiago santiago
santiago santiago
sudah -
memutuskan memutuskan
untuk -
mencari mencari
sang -
alkemis alkemis
Algoritma wordlist
Wordlist adalah kata-kata yang
deskriptif (penting) yang harus disimpan
dan tidak dibuang dengan pendekatan
bag-of-words.
Wordlist adalah kata-kata yang
deskriptif (penting) yang harus
disimpan dan tidak dibuang dengan
Kita memiliki database kumpulan kata-
kata yang deskriptif (penting),
kemudian kalau hasil tokenisasi itu ada
yang merupakan kata penting dalam
database tersebut, maka hasil tokenisasi
itu disimpan.
Contoh wordlist adalah applied, words,
texts, dst.

they -
are -
applied applied
to -
the -
words words
in -
the -
texts texts
Contoh wordlist adalah santiago,
namanya, mencari, memutuskan,
alkemis, dst.

namanya namanya
adalah -
santiago santiago
santiago santiago
sudah -
memutuskan memutuskan
untuk -
mencari mencari
sang -
alkemis alkemis
Using Stop Words or Not?
Kebanyakan aplikasi text mining

ataupun IR bisa ditingkatkan
performanya dengan penghilangan
stopword.
Akan tetapi, secara umum Web search
engines seperti google sebenarnya tidak
menghilangkan stop word, karena
algoritma yang mereka gunakan berhasil
memanfaatkan stopword dengan
baikaaa
Using Stop Words or Not?
Kebanyakan aplikasi text mining

ataupun IR bisa ditingkatkan
performanya dengan penghilangan
stopword.
Akan tetapi, secara umum Web search
engines seperti google sebenarnya
tidak menghilangkan stop word, karena
algoritma yang mereka gunakan
berhasil memanfaatkan stopword
dengan baik.
Langkah 4 : Phrase Detection
Langkah ini bisa menangkap informasi

dalam teks melebihi kemampuan dari
metode tokenisasi / bag-of-word murni.
Pada langkah ini tidak hanya dilakukan

tokenisasi per kata, namun juga
mendeteksi adanya 2 kata atau lebih
yang menjadi frase.
Contoh, dari dokumen ini : “search

engines are the most visible information
retrieval applications”
Terdapat dua buah frase, yaitu “search
engines” dan “information retrieval”.
Phrase detection bisa dilakukan dengan

beberapa cara : menggunakan
rule/aturan (misal dengan
menganggap dua kata yang sering
muncul berurutan sebagai frase), bisa
dengan syntactic analysis, and
kombinasi keduanya.
Metode umum yang diguakan adalah

penggunaan thesauri untuk mendeteksi
adanya frase.
Contoh : Pada thesauri tersebut terdapat
daftar frase-fase dalam bahasa tertentu,
kemudia kita bandingkan kata-kata
dalam teks apakah mengandung frase-
frase dalam thesauri tersebut atau
tidak.aaa
Metode umum yang diguakan adalah

penggunaan thesauri untuk mendeteksi
adanya frase.
Contoh : Pada thesauri tersebut
terdapat daftar frase-fase dalam
bahasa tertentu, kemudia kita
bandingkan kata-kata dalam teks
apakah mengandung frase-frase dalam
thesauri tersebut atau tidak.
Kelemahanya, tahap ini butuh

komputasi yang cukup lama
Kebanyakan aplikasi teks mining atau IR
tidak menggunakan Phrase Detection
Sudah cukup dengan Token per Kata
Akan tetapi, sebenarnya pemanfaatan
Phrase akan meningkatkan akurasi
Kelemahanya, tahap ini butuh

komputasi yang cukup lama
Kebanyakan aplikasi teks mining atau IR
tidak menggunakan Phrase Detection
Sudah cukup dengan Token per Kata
Akan tetapi, sebenarnya pemanfaatan
Phrase akan meningkatkan akurasi
Langkah 5 : Stemming
Stemming adalah proses pengubahan

bentuk kata menjadi kata dasar atau
tahap mencari root kata dari tiap kata
hasil filtering.
Dengan dilakukanya proses stemming

setiap kata berimbuhan akan berubah
menjadi kata dasar, dengan demikian
dapat lebih mengoptimalkan proses teks
mining.
Hasil Token Hasil Filtering Hasil Stemming

they - -
are - -
applied applied apply
to - -
the - -
words words word
in - -
the - -
texts texts text
Hasil Token Hasil Filtering Hasil Stemming

namanya namanya nama
adalah - -
santiago santiago santiago
santiago santiago santiago
sudah - -
memutuskan memutuskan putus
untuk - -
mencari mencari cari
sang - -
alkemis alkemis alkemis
Implementasi proses stemming sangat

beragam , tergantung dengan bahasa
dari dokumen.
Beberapa metode untuk Stemming :
Porter Stemmer (English & Indonesia)
Stemming Arifin-Setiono (Indonesia)
Stemming Nazief-Adriani (Indonesia)
Khoja (Arabic)
Implementasi proses stemming sangat

beragam , tergantung dengan bahasa
dari dokumen.
Beberapa metode untuk Stemming :
Porter Stemmer (English & Indonesia)
Stemming Arifin-Setiono (Indonesia)
Stemming Nazief-Adriani (Indonesia)
Khoja (Arabic)
Stemming : Metode
Algorithmic: Membuat sebuah

algoritma yang mendeteksi imbuhan.
Jika ada awalan atau akhiran yang
seperti imbuhan, maka akan dibuang.
Stemming : Metode
Algorithmic
Stemming : Metode
Metode Algorithmic
Kelebihan : relatif cepat
Kekurangan : beberapa algoritma
terkadang salah mendeteksi imbuhan,
sehingga ada beberapa kata yang
bukan imbuhan tapi dihilangkan
Contoh : makan -> mak; an dideteksi
sebagai akhiran sehingga dibuang.
Stemming : Metode
Kekurangan : beberapa algoritma
Contoh : makan -> mak; an dideteksi
Stemming : Metode
Kekurangan : beberapa algoritma
Contoh : makan -> mak; an dideteksi
Stemming : Metode
Metode Lemmatization
Lemmatization : Stemming berdasarkan
kamus
Menggunakan vocabulary dan
morphological analysis dari kata untuk
menghilangkan imbuhan dan
dikembalikan ke bentuk dasar dari kata.
Stemming : Metode
Lemmatization : Stemming berdasarkan
kamus
Menggunakan vocabulary dan
morphological analysis dari kata untuk
menghilangkan imbuhan dan
dikembalikan ke bentuk dasar dari kata.
Stemming : Metode
Stemming ini bagus untuk kata-kata
yang mengalami perubahan tidak
beraturan (terutama dalam english)
Contoh : “see” -> “see”, “saw”, atau
“seen”
Jika ada kata “see”, “saw”, atau “seen”,
bisa dikembalikan ke bentuk aslinya yaitu
“see”
Stemming : Metode
Stemming ini bagus untuk kata-kata
yang mengalami perubahan tidak
beraturan (terutama dalam english)
Contoh : “see” -> “see”, “saw”, atau
“seen”
Jika ada kata “see”, “saw”, atau
“seen”, bisa dikembalikan ke bentuk
aslinya yaitu “see”
Stemming : Metode
Algoritma Porter Stemming merupakan

algoritma yang paling populer.
Ditemukan oleh Martin Porter pada
tahun 1980.
Mekanisme algoritma tersebut dalam
mencari kata dasar suatu kata
berimbuhan, yaitu dengan membuang
imbuhan–imbuhan (atau lebih tepatnya
akhiran pada kata–kata bahasa Inggris karena
dalam bahasa Inggris tidak mengenal awalan).
Hasil Token Hasil Hasil Type Term

Filtering Stemming
they - - - -
are - - - -
applied applied apply apply apply
to - - - -
the - - - -
words words word word word
in - - - -
the - - - -
texts texts text text text
Hasil Token Hasil Hasil Type Term

Filtering Stemming
namanya namanya nama nama nama
adalah - - - -
santiago santiago santiago santiago santiago
santiago santiago santiago - -
sudah - - - -
memutusk memutusk
putus putus putus
an an
untuk - - - -
mencari mencari cari cari cari
sang - - - -
alkemis alkemis alkemis alkemis alkemis
Studi Kasus
Dokumen Ke-i Isi Dokumen
pembukaan daftar wisuda dan pelaksanaan nya lebih baik d umumkan di web ub tidak
hanya di fakultas. sehingga memudahkan mahasiswa yang ada di luar kota. pelaksanaan
1
wisuda sebaiknya terjadwal tidak tergantung pada kuota. sehingga lebih cepat mendapat
ijazah.
dalam setahun belakangan ini, pengaksesan KRS diganti ke SIAM (sebelumnya menggunakan
SINERGI). saat menggunakan sinergi, fitur serta kecepatan akses sangat handal dan nyaman.
2 tapi setelah diganti menggunakan SIAM, keadaan berbalik menjadi buruk (lambat loading
dan bahkan sampai logout dengan sendirinya). *KRS tidak hanya berpengaruh bagi
mahasiswa semester muda tapi juga keseluruhan mahasiswa
Assalamualaikum Wr. Wb. yang menjadi salah satu syarat untuk bisa ujian kompre ada sertifikat
TOEIC, sehingga jika belum lulus toeic maka tidak bisa melakukan ujian kompre. saya rasa ini
3 sangat menghambat teman-teman yang memang lemah dibidang bahasa inggris (atau
yang kurang beruntung dalam ujian toeic-nya). sehingga mereka tidak bisa fokus untuk ujian
kompre-nya. terima kasih..
pak/bu dosen saya mau minta keringanan biaya proposional dan spp ,soalnya ibu saya
4
keberatan dengan biaya itu? terima kasih atas perhatiannya.
Studi Kasus
Dokume
Isi Dokumen Tokenisasi Filtering Stemming
n Ke-i
pembukaan daftar wisuda dan pelaksanaan buka daftar wisuda

pembukaan daftar wisuda dan pembukaan daftar wisuda
nya lebih baik d umumkan di web ub tidak pelaksanaan nya lebih baik d umumkan laksana umum web ub
pelaksanaan umumkan web
hanya di fakultas. sehingga memudahkan di web ub tidak hanya di fakultas fakultas mudah
sehingga memudahkan mahasiswa yang ub fakultas memudahkan
1 mahasiswa yang ada di luar kota. ada di luar kota pelaksanaan wisuda mahasiswa kota pelaksanaan
mahasiswa kota
pelaksanaan wisuda sebaiknya terjadwal sebaiknya terjadwal tidak tergantung laksana wisuda baik
tidak tergantung pada kuota. sehingga lebih wisuda sebaiknya terjadwal
pada kuota sehingga lebih cepat jadwal gantung kuota
cepat mendapat ijazah. mendapat ijazah tergantung kuota cepat ijazah
cepat ijazah
dalam setahun belakangan ini, pengaksesan dalam setahun belakangan ini setahun belakangan tahun belakang akses
KRS diganti ke SIAM (sebelumnya pengaksesan krs diganti ke siam
menggunakan SINERGI). saat menggunakan sebelumnya menggunakan sinergi saat pengaksesan krs diganti siam krs ganti siam sinergi
sinergi, fitur serta kecepatan akses sangat menggunakan sinergi fitur serta sinergi sinergi fitur kecepatan sinergi fitur cepat akses
handal dan nyaman. tapi setelah diganti kecepatan akses sangat handal dan akses handal nyaman diganti handal nyaman ganti
nyaman tapi setelah diganti
2 menggunakan SIAM, keadaan berbalik menggunakan siam keadaan berbalik siam keadaan berbalik buruk siam ada balik buruk
menjadi buruk (lambat loading dan bahkan menjadi buruk lambat loading dan lambat loading logout lambat loading logout
sampai logout dengan sendirinya). *KRS tidak bahkan sampai logout dengan sendirinya krs berpengaruh sendiri krs pengaruh
hanya berpengaruh bagi mahasiswa sendirinya krs tidak hanya berpengaruh
bagi mahasiswa semester muda tapi mahasiswa semester muda mahasiswa semester
semester muda tapi juga keseluruhan
mahasiswa juga keseluruhan mahasiswa keseluruhan mahasiswa muda luruh mahasiswa
Assalamualaikum Wr. Wb. yang menjadi

assalamualaikum wr wb yang menjadi assalamualaikum wr wb
salah satu syarat untuk bisa ujian kompre ada assalamualaikum wr wb syarat
sertifikat TOEIC, sehingga jika belum lulus
salah satu syarat untuk bisa ujian kompre syarat uji kompre
ada sertifikat toeic sehingga jika belum ujian kompre sertifikat toeic
toeic maka tidak bisa melakukan ujian sertifikat toeic lulus
lulus toeic maka tidak bisa melakukan lulus toeic ujian kompre
kompre. saya rasa ini sangat menghambat ujian kompre saya rasa ini sangat toeic uji kompre
3 teman-teman yang memang lemah menghambat teman teman yang menghambat lemah dibidang
hambat lemah bidang
dibidang bahasa inggris (atau yang kurang memang lemah dibidang bahasa inggris bahasa inggris kurang
bahasa inggris kurang
beruntung dalam ujian toeic-nya). sehingga atau yang kurang beruntung dalam ujian beruntung ujian toeic fokus
toeic nya sehingga mereka tidak bisa untung uji toeic fokus uji
mereka tidak bisa fokus untuk ujian kompre- ujian kompre terima kasih
nya. terima kasih..
fokus untuk ujian kompre nya terima kasih kompre terima kasih
pak bu dosen minta pak bu dosen minta

pak/bu dosen saya mau minta keringanan pak bu dosen saya mau minta keringanan biaya proposional ringan biaya
biaya proposional dan spp ,soalnya ibu saya keringanan biaya proposional dan spp
4 keberatan dengan biaya itu? terima kasih soalnya ibu saya keberatan dengan spp soalnya ibu keberatan proposional spp soal
atas perhatiannya. biaya itu terima kasih atas perhatiannya biaya terima kasih ibu berat biaya terima
perhatiannya kasih hati
Latihan : Tentukan hasil Tokenisasi, Filtering
dan Stemming setiap dokumen tersebut
Dokumen Isi
(Doc) (Content)
elearning di PTIIK diatas jam 6 malam kok selalu gak bisa
Doc 1 dibuka ya?
ub tidak punya lahan parkir yang layak. Dan jalanan terlalu
Doc 2 ramai karena di buka untuk umum. Seperti jalan tol saja.
Brawijaya oh brawijaya
Kelas Arsitektur dan Organisasi Komputer penuh, apakah
Doc 3 tidak dibuka kelas lagi. Rugi kalo saya bisa ngambil 24 SKS
tapi baru 18 SKS yg terpenuhi
Informasi tata cara daftar ulang bagi mahasiswa baru PTIIK
kurang jelas. Sehingga ketika tanggal terakhir syarat
Doc 4 penyerahan berkas daftar ulang, banyak mahasiswa baru
yang tidak membawa salah satu syarat daftar ulangnya.

Text Pre Processing v2

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Text Pre Processing v2

Diunggah oleh

Hak Cipta:

Format Tersedia

Text Pre-Processing

Dokumen-dokumen yang ada

Dokumen-dokumen yang ada

Preprocessing diperlukan untuk memilih

Preprocessing diperlukan untuk memilih

Definisi Pemrosesan Teks (Text

Preprocessing adalah merubah teks

Preprocessing adalah merubah teks

Langkah-langkah umum dalam Text Pre-processing

Tulisan dalam sebuah dokumen bisa

Tulisan dalam sebuah dokumen bisa

Parsing Dokumen berurusan dengan

Contoh, email dengan 4 lampiran bisa

Contoh lain, buku dengan 100 halaman

Contoh lain, buku dengan 100 halaman

Lebih populer disebut Lexing atau

Tokenisasi adalah proses pemotongan

Tokenisasi adalah proses pemotongan

Pada proses ini dilakukan penghilangan

Pada tahapan ini juga dilakukan proses

Pada tahapan ini juga Cleaning

Pada tahapan ini juga Cleaning

Text: “apakah culo dan boyo bermain

Text: “apakah culo dan boyo bermain

Text: “apakah culo dan boyo bermain

Text: “apakah culo dan boyo bermain

Text: “apakah culo dan boyo bermain

Text: “apakah culo dan boyo bermain

Text: “apakah culo dan boyo bermain

Text: “apakah culo dan boyo bermain

Text: “apakah culo dan boyo bermain

Teks English They are applied to the words in the texts.

Teks Bahasa Namanya adalah Santiago. Santiago sudah

Disebut juga Filtering

Disebut juga Filtering

Hasil Token Hasil Filtering

Hasil Token Hasil Filtering

Hasil Token Hasil Filtering

Hasil Token Hasil Filtering

Kebanyakan aplikasi text mining

Kebanyakan aplikasi text mining

Langkah ini bisa menangkap informasi

Pada langkah ini tidak hanya dilakukan

Contoh, dari dokumen ini : “search

Phrase detection bisa dilakukan dengan

Metode umum yang diguakan adalah

Metode umum yang diguakan adalah

Kelemahanya, tahap ini butuh

Kelemahanya, tahap ini butuh

Stemming adalah proses pengubahan

Dengan dilakukanya proses stemming

Hasil Token Hasil Filtering Hasil Stemming

Hasil Token Hasil Filtering Hasil Stemming

Implementasi proses stemming sangat

Implementasi proses stemming sangat

Algorithmic: Membuat sebuah

Algoritma Porter Stemming merupakan

Hasil Token Hasil Hasil Type Term

Hasil Token Hasil Hasil Type Term

Dokumen Ke-i Isi Dokumen

pembukaan daftar wisuda dan pelaksanaan buka daftar wisuda

Assalamualaikum Wr. Wb. yang menjadi

pak bu dosen minta pak bu dosen minta