Anda di halaman 1dari 12

Pembelajaran mesin

Nama : Mukti Ali Sadikin


Buatlah studi kasus implementasi computer vision atau text mining menggunakan R atau python

Langkah 1 Scrapping Data Twitter menggunakan Library "snscrape" menggunakan python

Ambil data twitter dari Web (Scrap) dan ekspor ke CSV

Data yang di ambil adalah kanta kunci “Booster” yang di ambil dari tanggal 01 Juni 2022 – 4 juli 2022
dengan membatasi data sebanyak 3.000 tweet dengan tahapann dan hasil sebagai berikut :
.
Scrapping data twitter

Kemudian di peroleh hasil berikut :


Hasil Scrapping data twitter

Langkah selanjutnya membuang data duplikat :

Gambar 3. Menghapus duplikat dan membaca data CSV

Langkah 2: Setelah data CSV di simpan di folder kemudian membuka data CSV tersebut menggunakan
RStudio. Tahapan ini disebut preprocessing, dalam tahapan ini dilakukan tahapan seperti menghilangkan
kata tidak baku (slang), mengubah semua tweet menjadi huruf kecil (case folding), menghilangkan karakter
khusus seperti titik, koma (cleansing), menghilangkan kata-kata yang tidak perlu (stopwords),
mengembalikan tiap kata menjadi bentuk baku (stemming).

Gambar 4. Sample dataset hasil scrapping

Gambar 5. Perbedaaan sebelum dan sesudah normalisasi


Gambar 6. Merubah teks menjadi huruf kecil

Gambar 7. Menghapus URL


Gambar 8. Sebelum dan sesudah menghapus mention (@)

Gambar 9. Sebelum dan sesudah menghapus tagar (#)


Gambar 10. Sebelum dan sesudah menghapus tanda “\n”

Gambar 11. Menghapus “RT”


Gambar 12. Menghapus tanda baca

Gambar 13. Menghapus stopword


Gambar 14. Menghapus spasi berlebih

Gambar 15. Proses Stemming

Gambar 16. Data kalimat positif dan negative


Gambar 17. Pelabelan terhadap dokumen

Gambar 18. Frekuensi kemunculan kata dalam seluruh dokumen


Gambar 18. Diagram batang kata yang paling sering muncul

Gambar 20. Visualisasi wordcloud


Gambar 21. Hasil Confusion Matrix dari metode Naïve Bayes

Hasil penelitian menunjukkan bahwa opini public pengguna twitter terkat kasus vaksin booster yang terjadi
mulai 01 Juni 2022 – 4 juli 2022 dapat dianalisis dengan menggunakan analisis sentiment yang
menghasilkan persentase sentiment terbesar adalah bersifat negatif sebanyak 29,3%, netral 58,3% dan
positif sebanyak 12,3 %. Hasil word cloud juga menunjukkan pengguna twitter mengkaitkan persoalan
terkait vaksin booster. Hasil klasifikasi menunjukkan nilai akurasi yang cukup baik yaitu sebesar 72,67%. Hal
ini tentunya masih perlu ditingkatkan nilainya dengan menggunakan beberapa pendekatan atau metode
klasifikasi lainnya.

Anda mungkin juga menyukai