Selamat datang di Scribd!

Tahapan Text Mining

Diunggah oleh

0% menganggap dokumen ini bermanfaat (0 suara)

32 tayangan2 halaman

Proses text mining terdiri dari beberapa tahapan seperti preprocessing teks, transformasi teks, pemilihan fitur, dan penemuan pola. Preprocessing meliputi aktivitas seperti cleanup teks, tokenizing, dan tagging part of speech. Transformasi teks digunakan untuk merepresentasikan dokumen menjadi model bag of words atau vector space. Pemilihan fitur bertujuan mengurangi dimensi dengan memilih kata-kata yang relevan. Penemuan pola melibatkan teknik data mining untuk menemukan pol

Deskripsi Asli:

text mining

Hak Cipta

Format Tersedia

DOCX, PDF, TXT atau baca online dari Scribd

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Laporkan Dokumen Ini

Hak Cipta:

Format Tersedia

Unduh sebagai DOCX, PDF, TXT atau baca online dari Scribd

Tandai sebagai konten tidak pantas

0% menganggap dokumen ini bermanfaat (0 suara)

32 tayangan2 halaman

Tahapan Text Mining

Diunggah oleh

felis

Hak Cipta:

Format Tersedia

Unduh sebagai DOCX, PDF, TXT atau baca online dari Scribd

Tandai sebagai konten tidak pantas

Lompat ke Halaman

Anda di halaman 1dari 2

Cari di dalam dokumen

Sumber : https://data-flair.

training/blogs/text-mining/

Proses text mining

- Text Preprocessing
Tahap ini melakukan analisis semantik (kebenaran arti) dan sintaktik (kebenaran
susunan) terhadap teks. Tujuan dari pemrosesan awal adalah untuk mempersiapkan teks menjadi
data yang akan mengalami pengolahan lebih lanjut. Operasi yang dapat dilakukan pada tahap ini
meliputi part-of-speech (PoS) tagging, menghasilkan parse tree untuk tiap-tiap kalimat, dan
pembersihan teks.

- Text Cleanup, menghapus hal-hal yang tidak dibutuhkan atau tidak diinignkan, contohnya
seperti iklan bila data tersebut didapatkan dari hasil scraping.

-Tokenezing, memecah text perkata

- Part of Speecg Tagging

-Text Transformation
Transformasi teks atau pembentukan atribut mengacu pada proses untuk mendapatkan
representasi dokumen yang diharapkan. Pendekatan representasi dokumen yang lazim digunakan
oleh model “bag of words” dan model ruang vector (vector space model). Transformasi teks
sekaligus juga melakukan pengubahan kata-kata ke bentuk dasarnya dan pengurangan dimensi
kata di dalam dokumen. Tindakan ini diwujudkan dengan menerapkan stemming dan menghapus
stop words.
c. Feature Selection

Pemilihan fitur (kata) merupakan tahap lanjut dari pengurangan dimensi pada proses
transformasi teks. Walaupun tahap sebelumnya sudah melakukan penghapusan kata-kata yang
tidak deskriptif (stopwords), namun tidak semua kata-kata di dalam dokumen memiliki arti
penting. Oleh karena itu, untuk mengurangi dimensi, pemilihan hanya dilakukan terhadap kata-
kata yang relevan yang benar-benar merepresentasikan isi dari suatu dokumen. Ide dasar dari
pemilihan fitur adalah menghapus kata-kata yang kemunculannya di suatu dokumen terlalu sedikit
atau terlalu banyak. Algoritma yang digunakan pada text mining, biasanya tidak hanya melakukan
perhitungan pada dokumen saja, tetapi juga pada feature . Empat macam feature yang sering
digunakan:

a. Character, merupakan komponan individual, bisa huruf, angka, karakter spesial dan spasi,
merupakan block pembangun pada level paling tinggi pembentuk semantik feature, seperti
kata, term dan concept. Pada umumnya, representasi character-based ini jarang digunakan
pada beberapa teknik pemrosesan teks.
b. Words.
c. Terms merupakan single word dan multiword phrase yang terpilih secara langsung dari
corpus. Representasi term-based dari dokumen tersusun dari subset term dalam dokumen.
d. Concept, merupakan feature yang di-generate dari sebuah dokumen secara manual, rule-
based, atau metodologi lain.

Data mining
Pattern discovery merupakan tahap penting untuk menemukan pola atau pengetahuan
(knowledge) dari keseluruhan teks. Tindakan yang lazim dilakukan pada tahap ini adalah
operasi text mining, dan biasanya menggunakan teknik-teknik data mining. Dalam
penemuan pola ini, proses text mining dikombinasikan dengan proses-proses data mining.
Masukan awal dari proses text mining adalah suatu data teks dan menghasilkan keluaran
berupa pola sebagai hasil interpretasi atau evaluasi. Apabila hasil keluaran dari penemuan
pola belum sesuai untuk aplikasi, dilanjutkan evaluasi dengan melakukan iterasi ke satu atau
beberapa tahap sebelumnya. Sebaliknya, hasil interpretasi merupakan tahap akhir dari proses
text mining dan akan disajikan ke pengguna dalam bentuk visual.

Anda mungkin juga menyukai

Mari Belajar Pemrograman Berorientasi Objek menggunakan Visual C# 6.0
Dari Everand
Mari Belajar Pemrograman Berorientasi Objek menggunakan Visual C# 6.0
Risal
Penilaian: 4 dari 5 bintang
4/5 (16)
Membuat Aplikasi Bisnis Menggunakan Visual Studio Lightswitch 2013
Dari Everand
Membuat Aplikasi Bisnis Menggunakan Visual Studio Lightswitch 2013
Risal
Penilaian: 3.5 dari 5 bintang
3.5/5 (7)
BAB IV-Metode Information Retrival (IR)
Dokumen8 halaman
BAB IV-Metode Information Retrival (IR)
Winda Lisa
Belum ada peringkat
12 - 7705 - MIK620 - 062018 - PDF
Dokumen17 halaman
12 - 7705 - MIK620 - 062018 - PDF
Andi Seppewali
Belum ada peringkat
Implementasi Penggunaan Sistem Aplikasi Web
Dokumen6 halaman
Implementasi Penggunaan Sistem Aplikasi Web
Edi Muhamad Hidayat
Belum ada peringkat
05.2 Bab 2 BB
Dokumen9 halaman
05.2 Bab 2 BB
Bunayya Mohamad Iqbal -
Belum ada peringkat
Makalah Data Mining
Dokumen20 halaman
Makalah Data Mining
Titis Fitria
100% (3)
Proses Kompilasi
Dokumen4 halaman
Proses Kompilasi
hambali ali
Belum ada peringkat
Kelompok 9
Dokumen10 halaman
Kelompok 9
Akhmad Galib
Belum ada peringkat
Review Jurnal
Dokumen3 halaman
Review Jurnal
Olga Oktaviani
Belum ada peringkat
Gunawan
Dokumen7 halaman
Gunawan
Sendok Shower
Belum ada peringkat
Pertemuan 4 - Big Data
Dokumen11 halaman
Pertemuan 4 - Big Data
Donker 1582
Belum ada peringkat
Jbptunikompp GDL Bambangima 33513 10 Unikom B I
Dokumen5 halaman
Jbptunikompp GDL Bambangima 33513 10 Unikom B I
Denny Baso
Belum ada peringkat
Bab Iii
Dokumen24 halaman
Bab Iii
farouq
Belum ada peringkat
Analisis Semantik Adalah Proses Setelah Melewati Proses Scanning Dan Parsing
Dokumen1 halaman
Analisis Semantik Adalah Proses Setelah Melewati Proses Scanning Dan Parsing
Black White
Belum ada peringkat
Analisis Semantik Adalah Proses Setelah Melewati Proses Scanning Dan Parsing
Dokumen1 halaman
Analisis Semantik Adalah Proses Setelah Melewati Proses Scanning Dan Parsing
Black White
Belum ada peringkat
Teks Terfavorit
Dokumen8 halaman
Teks Terfavorit
doank025
Belum ada peringkat
Teks prosedur-KI KD-Kelas XII SMK
Dokumen15 halaman
Teks prosedur-KI KD-Kelas XII SMK
ryndrartowidyodo
Belum ada peringkat
B.indo Kel.1
Dokumen6 halaman
B.indo Kel.1
Lutfi Budiwicaksana
Belum ada peringkat
B.indo
Dokumen9 halaman
B.indo
Salsabila Chustiarani
Belum ada peringkat
Kls 11 Materi
Dokumen3 halaman
Kls 11 Materi
silalahi bengkel las
Belum ada peringkat
Bab 1
Dokumen16 halaman
Bab 1
KHABIB RADJADOLI NAIBAHO
Belum ada peringkat
Algoritma Genetika
Dokumen8 halaman
Algoritma Genetika
Al Hafiz Yunas
Belum ada peringkat
Dina - Oktavia,+##default - Groups.name - Manager##,+3332 99Z - Artikel 21734 1 2 20180726
Dokumen7 halaman
Dina - Oktavia,+##default - Groups.name - Manager##,+3332 99Z - Artikel 21734 1 2 20180726
Rizky Hidayat
Belum ada peringkat
Makalah Analisis Leksikal
Dokumen11 halaman
Makalah Analisis Leksikal
Naga
100% (4)
LaporanProject 1310191015 Ahmad Sahal I.docx 3
Dokumen26 halaman
LaporanProject 1310191015 Ahmad Sahal I.docx 3
Ahmad Sahal
Belum ada peringkat
Resume Buku
Dokumen14 halaman
Resume Buku
rudi 010
Belum ada peringkat
Bab Ii - 2018309tif
Dokumen19 halaman
Bab Ii - 2018309tif
riska tawari
Belum ada peringkat
Kelas Xi Teks Prosedur
Dokumen20 halaman
Kelas Xi Teks Prosedur
fitri yulherni
Belum ada peringkat
Algoritma Dynamic Programming
Dokumen7 halaman
Algoritma Dynamic Programming
Fauzi
Belum ada peringkat
Pengolahan Bahasa Alami
Dokumen18 halaman
Pengolahan Bahasa Alami
Firmansyah Adi Harjanto
50% (2)
Perancangan Bahasa Pemrograman Bernotasi Prefix-Dikonversi
Dokumen8 halaman
Perancangan Bahasa Pemrograman Bernotasi Prefix-Dikonversi
Amzar Zikri
Belum ada peringkat
Bab Iii
Dokumen18 halaman
Bab Iii
Taufik Fitriyadi
Belum ada peringkat
Analisi Leksikal
Dokumen9 halaman
Analisi Leksikal
iskavel
Belum ada peringkat
Teks Prosedur - B. Indonesia by Catatanindahns
Dokumen3 halaman
Teks Prosedur - B. Indonesia by Catatanindahns
Akunff1 122
Belum ada peringkat
Pink Colorful Vintage Aesthetic Minimalist Home Decor Virtual Work From Home Never Have I Ever Game Presentation - 20230814 - 201313 - 0000
Dokumen17 halaman
Pink Colorful Vintage Aesthetic Minimalist Home Decor Virtual Work From Home Never Have I Ever Game Presentation - 20230814 - 201313 - 0000
Ang Kenny
Belum ada peringkat
Bab 1 Cermat Memahami Petunjuk Kerja
Dokumen15 halaman
Bab 1 Cermat Memahami Petunjuk Kerja
Salsyabil Ismail
Belum ada peringkat
Tugas 1 Kecerdasan Buatan (Teknologi Dokumen Mining)
Dokumen6 halaman
Tugas 1 Kecerdasan Buatan (Teknologi Dokumen Mining)
Dewa Excited
Belum ada peringkat
DTM TP2
Dokumen4 halaman
DTM TP2
Abi Nugroho
100% (1)
1.pengertian Teks Prosedur
Dokumen7 halaman
1.pengertian Teks Prosedur
iramelda njumara
Belum ada peringkat
Bindo Kls 11 MA SMSTR 1 Untuk Santri
Dokumen69 halaman
Bindo Kls 11 MA SMSTR 1 Untuk Santri
nawwaf.rzn
Belum ada peringkat
Rangkuman Modul Sesi 2
Dokumen11 halaman
Rangkuman Modul Sesi 2
Guru SMK Patriot 2 Bekasi
Belum ada peringkat
Bab 1 Teks Prosedur (Kelas Xi)
Dokumen6 halaman
Bab 1 Teks Prosedur (Kelas Xi)
Dyo Agus prastyo
Belum ada peringkat
37 97 1 PB
Dokumen6 halaman
37 97 1 PB
Sari Dwi Septiani
Belum ada peringkat
Teks Prosedur
Dokumen9 halaman
Teks Prosedur
aufa dini
Belum ada peringkat
Tugas 1
Dokumen21 halaman
Tugas 1
white_powder
Belum ada peringkat
Spesifikasi Proses
Dokumen10 halaman
Spesifikasi Proses
Farid Nur Fadillah
Belum ada peringkat
13 Vol6No2Sep2013 Silfia Andini
Dokumen9 halaman
13 Vol6No2Sep2013 Silfia Andini
David Johns
Belum ada peringkat
NORFAZILAH - 60200119018 - A - Aplikasi IR
Dokumen5 halaman
NORFAZILAH - 60200119018 - A - Aplikasi IR
Aditya Jaya
Belum ada peringkat
4688-Article Text-15423-1-10-20200724
Dokumen13 halaman
4688-Article Text-15423-1-10-20200724
Wilhan Putra Sunjaya
Belum ada peringkat
Bab 4 Preprocessing Data Mining
Dokumen5 halaman
Bab 4 Preprocessing Data Mining
Haries Rochmatullah
Belum ada peringkat
Akmaluddin (1930403043) Tugas Per Ke-6 MK SSTKI
Dokumen4 halaman
Akmaluddin (1930403043) Tugas Per Ke-6 MK SSTKI
Akmaluddin
Belum ada peringkat
Basisdata 8
Dokumen2 halaman
Basisdata 8
nani nana
Belum ada peringkat
Materi Teknik Kompilasi
Dokumen17 halaman
Materi Teknik Kompilasi
Easy Clean Official
Belum ada peringkat
Jurnal Kecerdasan Bisnis
Dokumen15 halaman
Jurnal Kecerdasan Bisnis
Rian Arfiandi
Belum ada peringkat
Pre Processing Pembentukan Korpus Al Quran Terjemahan Bahasa Indonesia Untuk Mendukung Information Retrieval
Dokumen10 halaman
Pre Processing Pembentukan Korpus Al Quran Terjemahan Bahasa Indonesia Untuk Mendukung Information Retrieval
Ahsan Thoriq
Belum ada peringkat
Resume Jurnal
Dokumen2 halaman
Resume Jurnal
rudi 010
Belum ada peringkat
2492-Article Text-1143-1-10-20201102
Dokumen12 halaman
2492-Article Text-1143-1-10-20201102
yudi permana
Belum ada peringkat
Cara Membuat Teks Prosedur Kompleks
Dokumen2 halaman
Cara Membuat Teks Prosedur Kompleks
Wariz
Belum ada peringkat
Teknik Kompilasi
Dokumen21 halaman
Teknik Kompilasi
Fahruzi Yuzi
Belum ada peringkat