Bias Pada NLP

BIAS PADA NLP
Klasifikasi Berita - Portal Detik.com
1. 20.52.1395 - AULIA TEGAR RAHMAN

2. 20.52.1365 - ASTIKA WULANSARI
Unsupervised artificial intelligence (AI) merupakan model yang otomatis menemukan pola tersembunyi dalam
kumpulan data bahasa alami dengan menangkap keteraturan linguistik yang mencerminkan bias manusia
seperti rasisme, seksisme dan kemampuan[1].
From The Brookings Institution’s Artificial Intelligence and Emerging Technology (AIET) Initiative is part of
“AI and Bias” a series that explores ways to mitigate possible biases and create a pathway greater fairness in AI
and emerging technologies[2].
Sumber : [1] Caliskan, A., Bryson, J. J., & Narayanan, A. (2017). Semantics derived automatically from language corpora contain
human-like biases. Science, 356(6334), 183-186.
Sumber : [2] https://www.brookings.edu/research/detecting-and-mitigating-bias-in-natural-language-processing/

Penyebab bias pada NLP
1. Perubahan kata dan pelabelan konsep yang digunakan dalam teks berita secara signifikan
mengubah persepsi peristiwa.
2. Data yang tidak diproses terlebih dahulu
Perbaikan bias pada NLP
1. Memperbaiki dataset sesuai 5V terutama Volume dan Variasi, mengambil data yang
sedekat mungkin dengan kenyataan.
2. Memastikan data yang digunakan untuk melatih algoritme masa depan mewakili
orang tanpa ada prasangka.
3. Menambah library kata yang tidak ambigu, menyusun data dengan normalisasi data
terlebih dahulu .
4. Meminta orang yang berlatar belakang berbeda untuk ikut menilai data,
menyumbangkan pikiran, untuk memastikan blindspot kita diperiksa.
Resume Paper
Sistem yang otomatis yang dapat mengelompokkan berita sesuai dengan kategori berita
dengan menggunakan text mining. Menggunakan metode yang digunakan dalam
klasifikasi adalah SVM dan KNN.
Hasil dari penelitian ini bahwa SVM kernel linier dan kernel polynomial menghasilkan
ketepatan klasifikasi yang paling baik adalah kernel polynomial.
Hasilnya SVM lebih baik daripada KNN dengan hasil nilai akurasi, recall, precision dan
F-Measure sebesar 93.2%, 93.2%, 93.63% dan 93.14%.
Simulasi Pintu Masuk Bias - Tidak Sengaja
Proses analisis = menyiapkan data artikel - Pre processing text (Stemming, stopword,
tokenizing, vektorisasi dan pembobotan - Membagi data training dan data testing, Melakukan
klasifikasi - Membandingkan performansi berdasarkan akurasi ketepatan klasifikasi.
Ketepatan klasifikasi KNN pada data training dan data testing

Kategori berita hot tidak terdapat kesalahan klasifikasi. Pada kategori news, artikel yang
diklasifikasikan dengan tepat hanya 4 artikel sisanya terdapat kesalahan klasifikasi pada
kategori hot sebanyak 6 artikel.
Solusi yang ditawarkan
Menggunakan metode SVM sebagai perbandingan. Ketepatan klasifikasi data training dan data testing menggunakan SVM.
Hasil confusion matrix dari klasifikasi SVM didapatkan akurasi recall, precision dan F-
Measure sebesar 93.2%, 93.2%, 93.63% dan 93.14%.
Kesimpulan dari solusi yang ditawarkan
Hasil pengukuran performansi yang dilihat dari akurasi, precision, recall, dan F-Measure
SVM kernel linier lebih baik dari pada KNN. Hasil dari KNN memberikan tingkat akurasi
paling kecil dibandingkan dengan metode SVM.
Skenario Data Modified
Berikut data asli crawl berita detik.com :
Berikut data modified crawl berita detik.com :

Skenarion Data Modified
Menggunakan Algoritma Klasifikasi :
Perbandingan Hasil Skenario Data Modified
Raw Result
Modified Result
Link UjiCoba
Link code : https://colab.research.google.com/drive/1Sv3xHG1cPtHbViPVvc-tXj3LXO5jmkFL?

usp=sharing
Bias di Algoritma
Algoritma sendiri tidak bias, tetapi ditulis oleh manusia dengan bias bawah sadar . Setiap
bagian dari teknologi digital dibangun dengan algoritma. jika suatu algoritma ditulis untuk
membuat keputusan mengklasifikasi berita dan instruksinya untuk mencari "semua data",
tetapi baik komputer maupun pemrogram tidak mengenali bahwa kumpulan data
"semuanya" dapat terwakili secara proporsional.
Fungsi Algoritma dilakukan analisis
Algoritma menampilkan representasi dari metode self-learning, dimana algoritma
mencerminkan cara otak menghitung informasi. Selama proses pelatihan, algoritma
menggunakan elemen yang tidak dikenal dalam distribusi input untuk mengekstrak fitur,
mengelompokkan objek, dan menemukan pola data yang berguna. Sama seperti mesin pelatihan
untuk metode self-learning, hal ini terjadi di beberapa tingkat dengan menggunakan algoritma
untuk membangun model.
Algoritma yang berkontribusi Bias
Dari gambar disamping, algoritma yang

berkontribusi bias :
1. KNN
2. LDA
3. CART
Perbandingan Struktur Algoritma
Solusi

Bias Pada NLP

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Bias Pada NLP

Diunggah oleh

Hak Cipta:

Format Tersedia

BIAS PADA NLP

Klasifikasi Berita - Portal Detik.com

1. 20.52.1395 - AULIA TEGAR RAHMAN

Sumber : [2] https://www.brookings.edu/research/detecting-and-mitigating-bias-in-natural-language-processing/

Ketepatan klasifikasi KNN pada data training dan data testing

Berikut data modified crawl berita detik.com :

Link code : https://colab.research.google.com/drive/1Sv3xHG1cPtHbViPVvc-tXj3LXO5jmkFL?

Dari gambar disamping, algoritma yang

Anda mungkin juga menyukai