Pertemuan 11 - Text Mining

Diunggah oleh

Kelvin Cipta

0% menganggap dokumen ini bermanfaat (0 suara)

4 tayangan8 halaman

Judul Asli

Pertemuan 11_Text Mining

Hak Cipta

Format Tersedia

PDF, TXT atau baca online dari Scribd

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Laporkan Dokumen Ini

Hak Cipta:

Format Tersedia

Unduh sebagai PDF, TXT atau baca online dari Scribd

Tandai sebagai konten tidak pantas

0% menganggap dokumen ini bermanfaat (0 suara)

4 tayangan8 halaman

Pertemuan 11 - Text Mining

Diunggah oleh

Kelvin Cipta

Hak Cipta:

Format Tersedia

Unduh sebagai PDF, TXT atau baca online dari Scribd

Tandai sebagai konten tidak pantas

Lompat ke Halaman

Anda di halaman 1dari 8

Cari di dalam dokumen

PRAKTIKUM TEKS MINING

Natural Language Processing

LABORATORIUM ILMU KOMPUTER UNIVERSITAS PAKUAN

TEXT PROCESSING SECARA UMUM

Stemming &
Document Weighting
Lemmatization

Pharse
Parsing Indexing
Detection

Lexical Stopword
Analysis Removal
KENALI DULU
Token Types Terms

Kebalikan dari token.

Kata yang dipisah dari teks asli Teks yang sudah di normalisasi
Memperhitungkan duplikasi
tanpa memikirkan duplikat ( stemming dsb)
data

Contoh
Teks Token Types Terms
“apa”,
“apakah culo “apakah”, “culo”, “apakah”, “culo”, “culo”,
dan boyo “dan”, “boyo”, “dan”, “boyo”, “boyo”,
bermain bola di “bermain”, “bola”, “bermain”, “bola”, “main”,
depan rumah “di”, “depan”, “di”, “depan”, “bola”,
boyo?” “rumah”, “boyo” “rumah” “depan”,
“rumah”)
PARSING
Memecah dokumen
Kita bisa memecah teks tersebut
menjadi dokumen yang banyak.
Ambil per satu kalimat dari teks.
Berapa yang kamu dapat ?
1 kalimat ditandai dengan garis
merah.

Boy Chandra – Sebuah Usaha Melupakan

Lexical Analysis / Tokenization
Biasa disebut tokenisasi. adalah proses pemotongan string input berdasarkan
tiap kata penyusunnya. Tokenizing adalah proses pemisahan teks menjadi
potongan-potongan yang disebut
sebagai token untuk kemudian di analisa. Kata, angka, simbol, tanda baca dan
entitas penting
lainnya dapat dianggap sebagai token

Contoh
Document : Biarlah semuanya Tokenized : ‘Biarlah’, ‘semuanya’, ‘tentang’,
tentang kita berlalu, tertinggal, ‘kita’, ‘berlalu’, ‘tertinggal’, ‘dan’, ‘tanggal’
dan tanggal.
Lexical Analysis – Case Folding
Dalam proses tokenisasi ini ada proses lagi yaitu case folding. Untuk merubah
dokumen atau teks ke huruf kecil (lowercase). Ada pula cleaning. Yaitu proses
membersihkan dokumen dari komponenkomponen yang tidak memiliki
hubungan dengan informasi yang ada pada
dokumen, seperti tag html, link, dan script.

Contoh
Case Folded : biarlah semuanya tentang kita
Document : Biarlah semuanya
berlalu tertinggal dan tanggal
tentang kita berlalu, tertinggal,
dan tanggal.
Tokenized : ‘Biarlah’, ‘semuanya’, ‘tentang’,
twitter.com/boychandra
‘kita’, ‘berlalu’, ‘tertinggal’, ‘dan’, ‘tanggal’
Cleaned : Biarlah semuanya
tentang kita berlalu, tertinggal,
dan tanggal.
Stopword Removal
adalah tahap pengambilan dari hasil token, yaitu kata-kata apa saja yang akan
digunakan untuk merepresentasikan suatu dokumen.

• Fitur ini berguna untuk menghapus stopwords dari teks

Stopwords (misalnya menghapus kata konjungsi seperti “dan”, “serta”,
“lagipula” dan lain-lain)

• Regexp berguna untuk menghapus kata-kata yang cocok

Regex dengan ekspresi reguler.
• Regexp secara bawaan diatur untuk menghapus tanda baca

Document • Frekuensi dokumen berguna untuk menyimpan token yang

muncul tidak kurang dari dan tidak lebih dari angka atau
Frequency persentase dokumen yang ditentukan
Stemming
adalah proses pengubahan bentuk kata menjadi kata dasar atau
tahap mencari root kata dari tiap kata hasil filtering. Dengan dilakukanya proses
stemming setiap kata berimbuhan akan berubah menjadi kata dasar, dengan
demikian dapat lebih mengoptimalkan proses teks mining

Kata Stemmed

merubah rubah

melihat lihat

mengetik ketik

Anda mungkin juga menyukai

Mari Belajar Pemrograman Berorientasi Objek menggunakan Visual C# 6.0
Dari Everand
Mari Belajar Pemrograman Berorientasi Objek menggunakan Visual C# 6.0
Risal
Penilaian: 4 dari 5 bintang
4/5 (16)
Text Pre Processing v2
Dokumen82 halaman
Text Pre Processing v2
PrasPratyaksa
Belum ada peringkat
Buku Kosakata Bahasa Thai: Pendekatan Berbasis Topik
Dari Everand
Buku Kosakata Bahasa Thai: Pendekatan Berbasis Topik
Pinhok Languages
Belum ada peringkat
Husni Penambangan Teks Di Python Preprocessing Menggunakan NLTK
Dokumen8 halaman
Husni Penambangan Teks Di Python Preprocessing Menggunakan NLTK
Temu Rose
Belum ada peringkat
Pertemuan 2 NPL
Dokumen26 halaman
Pertemuan 2 NPL
Yudhi Christian
Belum ada peringkat
Text Mining
Dokumen28 halaman
Text Mining
unknown2711
Belum ada peringkat
Natural Language Processing
Dokumen2 halaman
Natural Language Processing
Haddad Sammir
Belum ada peringkat
Pertemuan 2 - Dokumen Preprocessing
Dokumen62 halaman
Pertemuan 2 - Dokumen Preprocessing
Izal Ferdiansyah
Belum ada peringkat
Pertemuan 2 - Dokumen Preprocessing PDF
Dokumen62 halaman
Pertemuan 2 - Dokumen Preprocessing PDF
MeHunt
Belum ada peringkat
9 - Extracting Information From Text (Part 1)
Dokumen35 halaman
9 - Extracting Information From Text (Part 1)
Mahendra Maulana
Belum ada peringkat
Pertemuan Ke-31 Part. 1 of 1 v1.07dts
Dokumen59 halaman
Pertemuan Ke-31 Part. 1 of 1 v1.07dts
Innocentia Indi
Belum ada peringkat
Pengindeksan Manual Vs Otomatis
Dokumen2 halaman
Pengindeksan Manual Vs Otomatis
sidiq fatkhul mugni
Belum ada peringkat
Tugas Laporan - K3520077 - Vincent Mulyadi
Dokumen2 halaman
Tugas Laporan - K3520077 - Vincent Mulyadi
Vincent Mulyadi
Belum ada peringkat
Ejaan Yang Disempurnakan: Oleh: Tim Penyusun MKWU Bahasa Indonesia
Dokumen18 halaman
Ejaan Yang Disempurnakan: Oleh: Tim Penyusun MKWU Bahasa Indonesia
Shahia Rafa
Belum ada peringkat
Edit Text
Dokumen138 halaman
Edit Text
Reja Ice
Belum ada peringkat
Natural Language Processing
Dokumen5 halaman
Natural Language Processing
FikryRafsanjani
Belum ada peringkat
Materi 2 - PRE PROCESSING DOKUMEN - P2
Dokumen17 halaman
Materi 2 - PRE PROCESSING DOKUMEN - P2
mjr
Belum ada peringkat
TF Idf
Dokumen4 halaman
TF Idf
noi javu
Belum ada peringkat
27-Text Mining Dan NLP
Dokumen30 halaman
27-Text Mining Dan NLP
Muhamad Ikhsan
Belum ada peringkat
NLP-Pertemuan2-Pemrosesan Data Teks
Dokumen15 halaman
NLP-Pertemuan2-Pemrosesan Data Teks
fadillahzx
Belum ada peringkat
Teks Prosedur
Dokumen15 halaman
Teks Prosedur
sugeng priyono
Belum ada peringkat
Teks Dalam Multimedia PDF
Dokumen7 halaman
Teks Dalam Multimedia PDF
Iif Futifar Rochaudin
Belum ada peringkat
Materi H5 Sesi1 NLP Intro
Dokumen54 halaman
Materi H5 Sesi1 NLP Intro
muhammad syaukani
Belum ada peringkat
BAB3 NLP
Dokumen9 halaman
BAB3 NLP
AHMADANDIKHUSAIRI Mahasiswa
Belum ada peringkat
Pre Processing Pembentukan Korpus Al Quran Terjemahan Bahasa Indonesia Untuk Mendukung Information Retrieval
Dokumen10 halaman
Pre Processing Pembentukan Korpus Al Quran Terjemahan Bahasa Indonesia Untuk Mendukung Information Retrieval
Ahsan Thoriq
Belum ada peringkat
Bahasa Indonesia
Dokumen14 halaman
Bahasa Indonesia
Mood Booster
Belum ada peringkat
ModulPraktikum2 - PBA - Amikom - 2021 - AdeNurhopipah
Dokumen8 halaman
ModulPraktikum2 - PBA - Amikom - 2021 - AdeNurhopipah
Pangestu Mu'thi Wibowo
Belum ada peringkat
Korpus
Dokumen4 halaman
Korpus
mietach
Belum ada peringkat
Rindiany Actavia Aldhan - 1512619101 - Tugas2
Dokumen2 halaman
Rindiany Actavia Aldhan - 1512619101 - Tugas2
Rindiany Aldhan
Belum ada peringkat
Media Pembelajaran PPT B.indo Kelas X Bayu Suarsa
Dokumen96 halaman
Media Pembelajaran PPT B.indo Kelas X Bayu Suarsa
bayu suarsa
Belum ada peringkat
Teks Prosedur - B. Indonesia by Catatanindahns
Dokumen3 halaman
Teks Prosedur - B. Indonesia by Catatanindahns
Akunff1 122
Belum ada peringkat
KKM Bahasa Indonesia Berkarakter Kelas X Semester 1 2 Masbied
Dokumen4 halaman
KKM Bahasa Indonesia Berkarakter Kelas X Semester 1 2 Masbied
Windha YS
Belum ada peringkat
Introducing Python
Dokumen8 halaman
Introducing Python
ACHMAD REZA FAHCRUROJI 2020
Belum ada peringkat
BAB IV-Metode Information Retrival (IR)
Dokumen8 halaman
BAB IV-Metode Information Retrival (IR)
Winda Lisa
Belum ada peringkat
Kliping Bahasa Inggris
Dokumen12 halaman
Kliping Bahasa Inggris
Tofa Tik
100% (8)
Jenis-Jenis Teks
Dokumen8 halaman
Jenis-Jenis Teks
lya.baby00
Belum ada peringkat
Penerapan Metode Cosine Similarity Dan Pembobotan TF/IDF Pada Sistem Klasifikasi Sinopsis Buku Di Perpustakaan Kejaksaan Negeri Jember
Dokumen12 halaman
Penerapan Metode Cosine Similarity Dan Pembobotan TF/IDF Pada Sistem Klasifikasi Sinopsis Buku Di Perpustakaan Kejaksaan Negeri Jember
indah fauzia
Belum ada peringkat
Unsur Kebahasaan Teks Cerita Sejarah
Dokumen6 halaman
Unsur Kebahasaan Teks Cerita Sejarah
Akhmad Azza Luthfika
75% (4)
Modul 1 B INDO - LK 0.1 Lembar Kerja Belajar Mandiri
Dokumen7 halaman
Modul 1 B INDO - LK 0.1 Lembar Kerja Belajar Mandiri
Riana Listiyastuti
Belum ada peringkat
Bab 4 - Text Clustering
Dokumen13 halaman
Bab 4 - Text Clustering
Muhammad Fajar Ikhsan Ja'far
Belum ada peringkat
Jbptunikompp GDL Yudikawula 37321 2 Unikom - y I
Dokumen24 halaman
Jbptunikompp GDL Yudikawula 37321 2 Unikom - y I
M. Subli
Belum ada peringkat
Analisa Kesalahan Ejaan Dan Diksi Pada Artikel Di Media Massa
Dokumen21 halaman
Analisa Kesalahan Ejaan Dan Diksi Pada Artikel Di Media Massa
Gilang
100% (1)
12 Macam Tanda Baca
Dokumen20 halaman
12 Macam Tanda Baca
Fiqih Lestari
Belum ada peringkat
Struktur Teks Deskripsi
Dokumen19 halaman
Struktur Teks Deskripsi
Syifa Fauziah Anggraeni
Belum ada peringkat
Penambangan Teks (Text Mining)
Dokumen16 halaman
Penambangan Teks (Text Mining)
Ivan Lanin
100% (2)
1 Kaidah 2022
Dokumen65 halaman
1 Kaidah 2022
Windhu Kusuma Negara
Belum ada peringkat
Text Preprocessing PDF
Dokumen9 halaman
Text Preprocessing PDF
Muhammad Rifqi Ma'arif
Belum ada peringkat
Apa Itu Python
Dokumen4 halaman
Apa Itu Python
Inumaki Senpai
Belum ada peringkat
Phyton & NLTK
Dokumen19 halaman
Phyton & NLTK
Suryanto Nugroho
Belum ada peringkat
Deskripsi
Dokumen53 halaman
Deskripsi
Dita Jessika
Belum ada peringkat
Document 1
Dokumen1 halaman
Document 1
valentinsalma014
Belum ada peringkat
Pertemuan 1
Dokumen32 halaman
Pertemuan 1
Yudhi Christian
Belum ada peringkat
KELOMPOK 7 (Natural Language Processing)
Dokumen13 halaman
KELOMPOK 7 (Natural Language Processing)
DITA DESLIANI
Belum ada peringkat
Modul Indo Ma KLS 11
Dokumen19 halaman
Modul Indo Ma KLS 11
Dimas Rangga
Belum ada peringkat
Presentasautomatai 1
Dokumen27 halaman
Presentasautomatai 1
van
Belum ada peringkat
Python NLTK Docs
Dokumen13 halaman
Python NLTK Docs
Sallith Lee Balada
Belum ada peringkat
Penulisan Dan Penggunaan Tanda Baca: Makna Dari Sebuah Kalimat Bahasa Indonesia
Dokumen3 halaman
Penulisan Dan Penggunaan Tanda Baca: Makna Dari Sebuah Kalimat Bahasa Indonesia
Maria Heniko Halima
Belum ada peringkat
Makalah Adiman
Dokumen17 halaman
Makalah Adiman
Rangga
Belum ada peringkat
Penggunaan Tanda Baca (Fungtuasi)
Dokumen12 halaman
Penggunaan Tanda Baca (Fungtuasi)
bekudaan
Belum ada peringkat
Kelompok 1 Pembelajaran Membaca Lancar
Dokumen15 halaman
Kelompok 1 Pembelajaran Membaca Lancar
Ora Weroh
Belum ada peringkat
Pertemuan 08 - Estimasi
Dokumen19 halaman
Pertemuan 08 - Estimasi
Kelvin Cipta
Belum ada peringkat
Update Paparan SMAN 10 Tangsel
Dokumen28 halaman
Update Paparan SMAN 10 Tangsel
Kelvin Cipta
Belum ada peringkat
Future Leader Class
Dokumen1 halaman
Future Leader Class
Kelvin Cipta
Belum ada peringkat
Probis Jasa - Perdagangan
Dokumen38 halaman
Probis Jasa - Perdagangan
Kelvin Cipta
Belum ada peringkat
1b Ide - Masalah - Tujuan
Dokumen24 halaman
1b Ide - Masalah - Tujuan
Kelvin Cipta
Belum ada peringkat
No. Pelaporan: 16155.20220702.0001
Dokumen7 halaman
No. Pelaporan: 16155.20220702.0001
Kelvin Cipta
Belum ada peringkat
Final2 Handbook Rekrutmen Terbuka Dinamika 2022 Fix
Dokumen19 halaman
Final2 Handbook Rekrutmen Terbuka Dinamika 2022 Fix
Kelvin Cipta
Belum ada peringkat
Soal PPH Badan 2
Dokumen14 halaman
Soal PPH Badan 2
Kelvin Cipta
Belum ada peringkat
Perhitungan Excel
Dokumen9 halaman
Perhitungan Excel
Kelvin Cipta
Belum ada peringkat
PBB 5L v3 - Revisi Final - Protect
Dokumen137 halaman
PBB 5L v3 - Revisi Final - Protect
Kelvin Cipta
Belum ada peringkat
Paket 1
Dokumen22 halaman
Paket 1
Kelvin Cipta
Belum ada peringkat
Paket 4
Dokumen22 halaman
Paket 4
Kelvin Cipta
Belum ada peringkat
Paket 7
Dokumen21 halaman
Paket 7
Kelvin Cipta
Belum ada peringkat
Paket 9
Dokumen22 halaman
Paket 9
Kelvin Cipta
Belum ada peringkat
Paket 3
Dokumen22 halaman
Paket 3
Kelvin Cipta
Belum ada peringkat
TPA-TBI PAKET-1 Compressed
Dokumen47 halaman
TPA-TBI PAKET-1 Compressed
Kelvin Cipta
Belum ada peringkat