Anda di halaman 1dari 1

1.

Pemrosesan Teks (Text Preprocessing)


- Tokenisasi
Memecah teks menjadi token atau kata-kata.
- Pembersihan Teks
Menghapus karakter khusus, tanda baca, dan kata-kata yang tidak relevan
atau umum (stopwords).
- Normalisasi
Mengubah kata-kata menjadi bentuk dasarnya (misalnya, mengubah
"makanan" menjadi "makan").

2. Representasi Teks (Text Representation)


- Bag of Words (BoW)
Mewakili teks sebagai vektor di mana setiap dimensi mewakili kemunculan
sebuah kata dalam teks.
- Term Frequency-Inverse Document Frequency (TF-IDF)
Mengukur pentingnya sebuah kata dalam sebuah dokumen berdasarkan
frekuensinya dalam dokumen tersebut dibandingkan dengan frekuensi
kemunculannya di seluruh koleksi dokumen.

3. Ekstraksi Fitur (Feature Extraction)


- N-grams
Mengambil rangkaian kata-kata berurutan dalam teks, bukan hanya kata
tunggal.
- Word Embeddings
Mewakili kata-kata sebagai vektor berdimensi rendah di ruang semantik.

4. Pemodelan (Modeling)
- Clustering
Mengelompokkan dokumen berdasarkan kesamaan konten atau topik.
- Classification
Mengklasifikasikan dokumen ke dalam kategori atau kelas yang telah
ditentukan sebelumnya.
- Topic Modeling
Mengidentifikasi topik-topik utama yang muncul dalam koleksi dokumen.

5. Evaluasi dan Interpretasi (Evaluation and Interpretation)


- Evaluasi Model
Mengukur kinerja model menggunakan metrik yang sesuai, seperti akurasi,
presisi, atau recall.
- Interpretasi Hasil
Menganalisis hasil dari model untuk mendapatkan wawasan yang berguna
dan memahami apa yang diungkapkan oleh teks yang dianalisis.

6. Peningkatan (Refinement)
- Fine-tuning Model
Menyesuaikan parameter model atau memilih model yang lebih sesuai
untuk mendapatkan hasil yang lebih baik.
- Pembaruan Proses Preprocessing
Meningkatkan tahap preprocessing teks untuk meningkatkan kualitas hasil.

Setiap tahapan dalam metode text mining memiliki peran penting dalam
mengubah teks yang tidak terstruktur menjadi pengetahuan yang dapat
dimengerti dan dimanfaatkan untuk berbagai tujuan, seperti analisis
sentimen, klasifikasi dokumen, atau pencarian informasi.

Anda mungkin juga menyukai