Buatan
Kelas : 3IA11
Materi : Jupyter
Pertemuan Ke :5
NPM : 57418060
Ketua Asisten :
Paraf Asisten :
Nama Asisten :
Bagian ini bisa berhenti di sini. Tapi kita ubah y menjadi -1,1. Jadi, negatif 1 adalah positif,
dan 1 adalah positif
Mengonversi label dari '0 v.s. 1 menjadi '-1 vs. 1'
Untuk membuat amplop kata, kita harus membagi teks atau dokumen yang panjang menjadi
potongan-potongan kecil. Proses ini disebut Tokenization. Teknik tokenization yang paling
umum adalah menguraikan teks dengan kata. Kita dapat melakukannya menggunakan
CountVectorizer dari ScIKIT-Learn. Tiap baris mewakili dokumen yang berbeda dan tiap
kolom mewakili kata yang berbeda. Kita juga dapat menggunakan 'CountVectorizer' untuk
menghapus kata 'stopwords'.
Jika kita menghilangkan banyak stop words banyak kalimat hilang makna. Sebagai contoh,
"Way Plug us at the converter" tidak masuk akal. Karena kita menggunakan NLTK untuk
menghapus semua kata-kata 'stop words' biasa. Jadi untuk mengatasi masalah ini, mari kita
membuat set kata berhenti sendiri.
Potong dan padatkan urutan masukan sehingga semuanya memiliki panjang yang sama
Ingatlah bahwa y adalah vektor 1 dan -1. Sekarang kita ubah menjadi matriks dengan 2
kolom yang mewakili -1 dan 1.
Mentraining data
Mempresentasikan kata
Training sampai 40
Hal yang sama terjadi untuk komentar ini. Oleh karena itu, ini berarti bahwa model ini tidak
dapat membedakan antara n't dan not. Salah satu solusi yang mungkin untuk ini adalah, pada
langkah pra-pemrosesan, alih-alih menghapus semua tanda baca, ubah semua bentuk pendek
n't menjadi not. Ini hanya dapat dilakukan dengan modul ulang dengan Python.