Anda di halaman 1dari 7

LAPORAN AKHIR LABTI

Mata Praktikum : Perancang Kecerdasan

Buatan

Kelas : 3IA11

Materi : Jupyter

Pertemuan Ke :5

Nama : Tia Alfi Nurjannah

NPM : 57418060

Tanggal : 13 Januari 2021

Nama PJ : Birky Wirka

Ketua Asisten :

Paraf Asisten :

Nama Asisten :

Jumlah Lembar : 7 Lembar

LABORATORIUM TEKNIK INFORMATIKA


UNIVERSITAS GUNADARMA 2020
Sel ini berisi kode untuk merujuk impor umum yang akan kita gunakan melalui notebook ini.

 Import warnings  untuk mengabaikan peringatan penghentian apa pun yang


mungkin muncul
 Import string  untuk memberikan nilai pada variable
 Import numpy as np  lib scikit learn untuk analisis data
 Import matplotlib  menampilkan gambar
 import matplotlib.pyplot as plt  mengimpor matplotlib

Sekarang, kita memuat data dan melihat 10 komentar pertama


 content = [x.strip() for x in content]  untuk menghilangkan spasi dibagian depan
dan belakang kalimat.
 sentences = [x.split("\t")[0] for x in content]  untuk memisahkan kalimat dari label.

Bagian ini bisa berhenti di sini. Tapi kita ubah y menjadi -1,1. Jadi, negatif 1 adalah positif,
dan 1 adalah positif
Mengonversi label dari '0 v.s. 1 menjadi '-1 vs. 1'

Untuk membuat amplop kata, kita harus membagi teks atau dokumen yang panjang menjadi
potongan-potongan kecil. Proses ini disebut Tokenization. Teknik tokenization yang paling
umum adalah menguraikan teks dengan kata. Kita dapat melakukannya menggunakan
CountVectorizer dari ScIKIT-Learn. Tiap baris mewakili dokumen yang berbeda dan tiap
kolom mewakili kata yang berbeda. Kita juga dapat menggunakan 'CountVectorizer' untuk
menghapus kata 'stopwords'.

Jika kita menghilangkan banyak stop words banyak kalimat hilang makna. Sebagai contoh,
"Way Plug us at the converter" tidak masuk akal. Karena kita menggunakan NLTK untuk
menghapus semua kata-kata 'stop words' biasa. Jadi untuk mengatasi masalah ini, mari kita
membuat set kata berhenti sendiri.

Menghapus kata yang tidak memiliki arti.


Menampilkan output sampai 20

Import dari sklearn dan memproses datasetnya

Sekarang, data_mat adalah matriks Document-Terminal. Input siap untuk dimasukkan ke


dalam model. Kita akan membuat set pelatihan dan pengujian. Di sini, kita telah membagi
data menjadi 2500 kalimat, satu set tes berisi 500 kalimat -- 250 kalimat positif dan 250
kalimat negatif.
Import model
Pembahasan tentang jaringan LSTM

Potong dan padatkan urutan masukan sehingga semuanya memiliki panjang yang sama

Ingatlah bahwa y adalah vektor 1 dan -1. Sekarang kita ubah menjadi matriks dengan 2
kolom yang mewakili -1 dan 1.

Mentraining data
Mempresentasikan kata

Training sampai 40

Untuk melihat validasi akurasi


Untuk kasus ini, perbedaan antara probabilitas untuk negatif dan positif tidak seberapa. Dan
model LSTM mengklasifikasikan ini sebagai positif.

Hal yang sama terjadi untuk komentar ini. Oleh karena itu, ini berarti bahwa model ini tidak
dapat membedakan antara n't dan not. Salah satu solusi yang mungkin untuk ini adalah, pada
langkah pra-pemrosesan, alih-alih menghapus semua tanda baca, ubah semua bentuk pendek
n't menjadi not. Ini hanya dapat dilakukan dengan modul ulang dengan Python.

Anda mungkin juga menyukai