Anda di halaman 1dari 2

Text Mining

- Menambang data berupa test/kata


- sumber data didapatkan dari dokumen

proses text mining


-Tokenizing --> memecah sekumpulan karakter daalam suatu teks menjadi kata
-Filtering --> mengambil kata kata penting dari hasil token
-Stemming --> mencari kata dasar dari tiap filtering
-Tagging --> mencari bentuk dari tiap kata awal/dasar dari hasil stemming
-Analyzing --> melihat keterkaitan antar dokumen yang ada
pada tahap ini akan menggunakan metode TFIDF(Term Frequency Inversed Document
Frequency)

nltk -->
lancasterstemmer --> proses stemmer
wordnetlemmatizer --> proses tagging
stopwords --> menghilangkan kata kata yang tidak penting
re, string, unicodedata
menyederhanakan proses atau tahapan --> pipline

jika menggunakan classification maka metode yang digunakan adalah confusion_matrix

library visualisasi
matplotlib, seaborn, wordcloud

tqdm --> untuk mempercantik tampilan loading data


merapikan modul atau dokumen yang didownload --> beautifulsoup
ada 2 cara :
- api
- web scarping

menyimpan dan mengambil data dari file --> pickle

penganalisaan teks --> textblob

API --> menjembatani satu aplikasi ke aplikasi lainnya

remove between squere --> menghapus tanda baca


remove punctuation --> menghapus tanda baca
deepcopy --> mengcopy secara keseluruhan

unicode --> membaca karakter

apply --> dapat bekerja pada pandas dan dataFrame yang dapat melakukan transformasi
data lebih dari satu kolom

join --> mengubah format array list mejadi string pada pemrograman pyhton

split --> untuk memisahkan string sehingga menjadi substring yang dipisahkan oleh
karakter tertentu.

data series terdiri dari baris atau terdiri dari kolom


data frame terdiri dari baris dan kolom

value_count --> menghitung berapa kali suatu kata muncul

index --> mengetahui posisi elemen pada array list


list --> digunakan untuk mengubah suatu objek kebentuk
series = struktur data dasar dalam data pandas. stuktur data yangbisa ditampung
berupa integer,float,
dan juga string. Series juga mendukung operasi vektor

textblob --> library yang berguna untuk mengoreksi ejaan


spelling corection --> memperbaiki ejaaan
punk --> mendownload database corpus dari nltk
correct --> function yang melakukan perbaikan ejaan dalam sebuah kata.
corpus --> bagian dari pustaka teks elektronik, tetapi corpus dibangun dengan
kriteria untuk tujuan khusus.
korpus bentuk jamak disebut korpora.

WordNet --> kamus bahasa inggris yang merupakan bagian dari nltk untuk python

lemmatization --> mengubah suatu kata menjadi kata dasar dengan mengetahui konteks
dari kata tersebut.

word_count --> menghitung jumlah kata yang ditulis dalam file


len --> untuk mengidentifikasi dan mengetahui seberapa panjang jumlah item atau
anggota pada suatu objek.

kolom stopwords --> menampilkan banyaknya jumlah kata yang dihapus. kata disini
adalah
kata yang tidak memiliki makna atau kata yang tidak penting.

tahapan awal pelabelan data ulasan oleh responden sesuai dengan label negatif,
label positif dan label netral.

percobaan ke 29 ini merupakan proses pemberian label pada setiap baris yang
terdapat

explot --> pemberian jarak antar gambar


figsize --> ukuran gambar

wordcloud --> gambar yang menunjukkan daftar kata kata yang digunakan dalam sebuah
teks, umumnya

imshow --> menampilkan gambar pada worksheet


interploation --> digunakan untuk menampilkan

Anda mungkin juga menyukai