Anda di halaman 1dari 4

Jurnal Cybermatika, Volume 1 [2013], Issue 1, Artikel 5

Penentuan Gender Otomatis Berdasarkan Isi Microblog Memanfaatkan Fitur Sosiolinguistik


Yudi Wibisono
Ilmu Komputer, Universitas Pendidikan Indonesia

Naufal Faruqi
Ilmu Komputer, Universitas Pendidikan Indonesia

yudi@upi.edu

naufal.faruqi@gmail.com

ABSTRAK
Penentuan gender secara otomatis dapat bermanfaat untuk kepentingan forensik dan komersial. Penelitian ini membahas penentuan gender pengguna secara otomatis berdasarkan isi microblog (Twitter) yang ditulis dalam Bahasa Indonesia dengan memanfaatkan fitur sosiolinguistik. Dilakukan pengukuran akurasi model klasifikasi untuk tiga jenis fitur: leksikal, sosiolinguistik dan kombinasi keduanya. Fitur leksikal menghasilkan akurasi 84.94%, dan sosiolinguistik 83.01%. Hasil terbaik dengan akurasi 86.22% didapat dengan kombinasi kedua fitur tersebut. Ditemukan beberapa perbedaan aspek sosiolinguistik antara Bahasa Indonesia dengan Bahasa Inggris.

dkk, 2009), tetapi penentuan gender secara otomatis untuk tulisan berbahasa Indonesia belum ada. Penelitian yang ada, (Surtiati, 2004) baru sampai pada tahap analisis kualitatif pengaruh gender terhadap tulisan. Perbedaan budaya membuat aspek sosiolinguistik yang digunakan dalam Bahasa Inggris tidak dapat langsung diterapkan pada Bahasa Indonesia. Bahasa Indonesia juga tidak memiliki gender gramatikal seperti halnya Bahasa Italia, Portugis dan Prancis. Makalah ini terbagi menjadi empat bagian. Bagian 2 akan membahas penelitian terkait, bagian 3 membahas eksperimen dan bagian 4 membahas tentang hasil eksperimen.

Kata Kunci
Microblog, Twitter, Gender, Sosiolinguistik, Klasifikasi Teks

2. PENELITIAN TERKAIT
Penentuan gender penulis secara otomatis berdasarkan tulisannya telah diteliti sebelumnya. Teknik yang umum digunakan adalah pembelajaran mesin untuk klasifikasi otomatis. Untuk domain microblog, Burger dkk (2011) menggunakan fitur leksikal dan dengan algoritma Balanced Winnow2 mendapatkan akurasi 75.5%. Term dengan nilai mutual information tertinggi adalah: !, love, :), my. Akurasi yang lebih tinggi didapatkan dengan menambahkan fitur nama pengguna dan deksripsi pengguna, tetapi kedua fitur ini lebih rentan dipalsukan. Van Durme (2012) menggunakan dataset yang sama dengan (Burger dkk, 2011) tetapi menggunakan klasifikasi berbasis streaming algorithm dengan rentang akurasi antara 50% sampai dengan 86%. Fitur tertinggi untuk laki-laki adalah kata abrigado, wife, my wife, bro sedangkan untuk perempuan adalah obrigada, hubby, husband, cute. Menggunakan dataset yang berbeda, Rao dkk (2010) memperoleh akurasi tertinggi dengan menggunakan fitur sosiolinguistik. Penelitian ini menemukan bahwa pengguna perempuan lebih sering menggunakan emoticon khususnya emoticon tertentu seperti <3 (gambar hati terbalik) sedangkan pria lebih sering menggunakan :D dan ;). Pengguna perempuan juga lebih sering menggunakan istilah LOL sedangkan pria LFMAO untuk merepresentasikan tertawa. Disfluencies seperti oh dan ah juga lebih sering digunakan oleh pengguna perempuan. Penggunaan fitur sosiolinguistik menghasilkan akurasi sebesar 71.76% dan jika dikombinasikan dengan fitur leksikal mencapai 72.33%. Argamon dkk (2003, 2009) menggunakan domain tulisan formal dan blog. Penelitian ini menemukan bahwa fitur yang terpenting yang menandakan penulis pria adalah banyaknya pengunaan determiner yaitu kata yang diletakan di depan kata benda untuk menjelaskan kata benda tersebut (a, that, these the, of,

1. PENDAHULUAN
Penentuan gender seseorang secara otomatis berdasarkan isi tulisannya dapat digunakan untuk berbagai kepentingan. Pihak berwajib dapat menggunakannya untuk membuat profil tersangka. Sedangkan perusahaan dapat memanfaatkan prediksi gender ini untuk mengetahui jenis pelanggan yang menggunakan atau mengomentari produknya. Microblog adalah layanan untuk menulis blog tetapi dalam ukuran yang dibatasi. Karena karakteristiknya yang mudah untuk dihasilkan dan mudah untuk dikonsumsi, microblog berkembang dengan cepat. Microblog digunakan pengguna untuk menuliskan aktivitas harian, berbicara ringan (chatting) dengan pengguna lain, mencari dan berbagi informasi (Java, 2007). Twitter adalah layanan microblog yang paling populer yang memiliki 517 juta pengguna dengan 29.4 juta diantaranya berasal dari Indonesia (Semiocast, 2012). Tulisan (posting) di twitter disebut tweet dan setiap tweet dibatasi maksimal 140 karakter. Setiap harinya dihasilkan 340 juta tweet (Twitter, 2021). Dari sisi bahasa, 51.1% tweet menggunakan Bahasa Inggris sedangkan 5.6% menggunakan Bahasa Indonesia (Hong, 2011). Artinya diperkirakan ada 19 juta tweet per hari yang ditulis dalam Bahasa Indonesia. Jumlah pengguna dan tweet yang besar ini mempunyai potensi besar untuk dimanfaatkan. Makalah pengguna pengguna pengguna Inggris. ini membahas metode untuk menentukan gender microblog secara otomatis berdasarkan isi tweet tersebut. Juga dikaji perbedaan sosiolingustik antara yang menggunakan Bahasa Indonesia dengan Bahasa

Walaupun penelitian penentuan gender berdasarkan tulisan telah ada sebelumnya (Burger dkk, 2011) (Rao dkk, 2010) (Argamon

Jurnal Cybermatika, Volume 1 [2013], Issue 1, Artikel 5 as, one, two) dan kata depan (on, over, during). Sedangkan penulis perempuan ditandai dengan banyaknya penggunaan kata ganti seperti I, you, she, her, me, him, my, their, myself. Akurasi yang untuk menentukan gender mencapai 72% untuk domain blog. Untuk bahasa Indonesia, hanya ditemukan satu penelitian yang terkait pengaruh gender terhadap tulisan. Surtiati (2004) melakukan analisis kualitatif untuk domain artikel koran dan buku. Penelitian ini menyatakan bahwa penulis perempuan lebih taat kaidah, menggunakan kosakata yang lebih akurat dan bervariasi, lebih sedikit menggunakan kalimat majemuk, dan menggunakan kalimat yang lebih pendek. Kelemahan utama penelitian ini adalah jumlah data yang terlalu sedikit karena hanya menggunakan enam dokumen yang ditulis tiga penulis laki-laki dan tiga penulis perempuan. Karena jumlah data yang terlalu sedikit, penyebab perbedaan bisa saja bukan dikarenakan gender tetapi karena gaya tulisan. Hasil penelitian ini juga sulit diaplikasikan pada domain microblog yang setiap tulisannya dibatasi maksimal 140 karakter. Pembatasan ini membuat kalimat majemuk jarang digunakan dan panjang tulisan relatif sama. karena sulit untuk menentukan gender seseorang hanya berdasarkan satu tweet. Untuk hasil yang lebih akurat, diperlukan sekumpulan tweet dari seorang pengguna untuk memprediksi gendernya. Dalam eksperimen ini digunakan sekitar 100 tweet untuk setiap pengguna. Pada fitur leksikal, semua kosa kata yang muncul pada tweet dimanfaatkan sebagai atribut. Untuk mendapatkan fitur leksikal, dilakukan pembobotan TF-IDF. Hanya kata yang muncul lebih dari 10 kali yang akan digunakan. Sedangkan untuk mendapatkan fitur linguistik, dilakukan penghitungan frekuensi kemunculan term untuk setiap kategori atribut. Tabel 2 memperlihatkan atribut untuk fitur linguistik beserta penjelasannya. Dengan klasifikasi unsupervised learning, data tweet dipecah menjadi dua bagian: data latih dan data uji coba. Bagian pertama digunakan sebagai data latih untuk membangkitkan model klasifikasi. Setelah model dihasilkan, bagian kedua digunakan sebagai ujicoba untuk mengukur tingkat akurasi model. Semakin tinggi akurasi, maka semakin baik model memprediksi gender. Tiga algoritma klasifikasi digunakan dalam eksperimen ini: Nave Bayes dan SVM (Support Vector Machine). Tetapi fokus eksperimen ini adalah fitur yang digunakan, bukan algoritma klasifikasi.

3. EKSPERIMEN
Eksperimen dilakukan mengunakan kumpulan tweet 312 mahasiswa yang ditahui gender-nya. Proses penentuan gender secara otomatis dilakukan dengan tiga skenario: pertama hanya menggunakan fitur leksikal, kedua hanya fitur sosiolinguistik dan terakhir adalah kombinasi antar leksikal dan sosiolinguistik. Gambar 1 memperlihatkan rincian tahapan untuk klasifikasi gender.

3.1 Deskripsi Data


Data diambil dari mahasiswa pengguna Twitter (18-24 tahun) yang terdiri atas 162 laki-laki dan 150 perempuan. Digunakan sekitar 100 tweet untuk setiap pengguna dengan jumlah total tweet 55864. Retweet (tweet yang meneruskan tweet orang lain) tidak diproses karena pengguna perempuan dapat meneruskan tweet pengguna laki-laki dan demikian sebaliknya. Dalam eksperimen ini, hanya isi tweet yang akan digunakan sebagai fitur. Walaupun nama pengguna dapat digunakan sebagai fitur, seperti pada Burger dkk (2011) tetapi tidak semua pengguna Twitter menggunakan nama asli dan salah satu tujuan penelitian ini adalah dapat mengungkapkan gender seseorang walaupun disembunyikan.

Tweet Pengguna

Praproses

3.2 Analisis Fitur Sosiolinguistik


Penggabungan Tweet Fitur Sosiolinguistik Sebelum fitur ditentukan, dilakukan perbandingan frekuensi kata yang digunakan pada setiap gender untuk mendapatkan gambaran aspek sosiolinguistik antara pengguna perempuan dan laki-laki. Tabel 1 memperlihatkan kata yang memiliki selisih jumlah terbanyak dan persentase selisih antara pengguna pria dan perempuan. Jika nilainya negatif artinya jumlah untuk pengguna pria lebih banyak dibandingkan pengguna perempuan dan demikian sebaliknya. Semakin besar selisihnya, maka semakin besar potensinya menjadi fitur untuk membedakan pengguna lakilaki dan perempuan. Secara keseluruhan pengguna perempuan lebih banyak menggunakan emoticon dibandingkan pengguna pria. Sebagai perkecualian adalah emoticon :D yang lebih banyak digunakan pria. Berbeda dengan (Rao 2010), pada Bahasa Indonesia, emoticon ;) lebih banyak digunakan oleh pengguna perempuan. Pengguna pria juga lebih banyak menggunakan kata depan seperti di dari dan penghubung seperti yang dan dan sedangkan pengguna perempuan lebih banyak menggunakan partikel seperti ih, ya, lho, loh.

Fitur Leksikal (kata ke vektor)

Model Klasifikasi

Gambar 1: Metodologi Klasifikasi

Setelah tweet dikumpulkan, dilakukan praproses yang terdiri atas proses casefolding, pembuangan mention pengguna (@...), hashtag (#...) dan URL. Kumpulan tweet untuk satu pengguna digabungkan terlebih dulu menjadi satu dokumen. Ini dilakukan

Jurnal Cybermatika, Volume 1 [2013], Issue 1, Artikel 5 Menariknya pengguna pria lebih banyak menggunakan saya untuk kata ganti orang pertama, dan pengguna perempuan menggunakan aku. Namun jika semua kata ganti orang pertama digabungkan termasuk kata non baku seperti gue, ane maka tidak perbedaan yang signifikan antara pria dan perempuan untuk kata ganti orang pertama. Untuk kata ganti orang ke-2 (kamu, lu), pengguna perempuan lebih banyak menggunakannya, kecuali untuk kata loe, karena mungkin dianggap dianggap lebih kasar dibandingkan lu Bagi pengguna Twitter di Indonesia, ada faktor penggunaan bahasa daerah dan asing. Masyarakat Indonesia sebagian besar masuk dalam kategori bilingual dengan menguasai bahasa daerah dan bahasa Indonesia (Aziz, 2009) dan sebagian kecil trilingual dengan menguasai bahasa asing. Ini juga tercermin pada penggunaan Twitter. Tabel 1 memperlihatkan bahwa pengguna pria lebih cenderung menggunakan bahasa daerah dan bahasa asing dibandingkan pengguna perempuan. Untuk kata yang berkaitan dengan emosi, pengguna Twitter perempuan lebih banyak menggunakan kata yang berkaitan emosi. Ini sesuai dengan (Dewaele, 2002) yang menyatakan perempuan memiliki kemampuan yang lebih tinggi dalam mengekspresikan emosinya. Ada beberapa kata kerja yang secara signifikan lebih banyak digunakan oleh pria seperti jadi, bisa, harus dan dapat. Sedangkan untuk kata keterangan, kata untuk lebih banyak digunakan oleh pria sedangkan banget dan sudah sebaliknya.
Tabel 1. Selisih Jumlah Kata pada Pengguna Pria dan Perempuan

banget, bgt sudah, sdh, udh

Kata keterangan Kata keterangan

363 384

36.70% 13.01%

3.3 Hasil Eksperimen


Ada tiga skenario eksperimen: skenario pertama adalah hanya menggunakan fitur leksikal. Skenario kedua hanya menggunakan fitur sosiolinguistik. Sedangkan skenario terakhir adalah menggabungkan fitur sosiolinguistik dengan fitur leksikal. 10 fold cross validation digunakan untuk mengujicoba model. Untuk skenario pertama (fitur leksikal), dicoba tiga algoritma klasifikasi yaitu Nave Bayes, J48 dan SVM, akurasi terbaik didapat dengan menggunakan algoritma SVM kernel linier dengan akurasi 84.94%. Selanjutnya SVM ini digunakan untuk skenario kedua dan ketiga. Untuk skenario kedua, pertama perlu dilakukan ekstraksi fitur sosiolinguistik dari kumpulan tweet. Tabel 2 memperlihatkan delapan fitur yang digunakan sebagai fitur sosiolinguistik. Fiturfitur ini dipilih berdasarkan frekuensi kemunculan pada pengguna laki-laki dan perempuan (Tabel 1) Tabel 2. Fitur Sosiolinguistik Fitur emoticon kata_depan Keterangan Jumlah emoticon Jumlah kata: di, dari, pada, akan, sejak, dengan, sama, oleh, untuk, antara, tentang, atas. Jumlah kata untuk Jumlah kata: ya, iya, ih, loh, lho, dong, deh, hey Jumlah kata: the,to, off, mah, nu,ka,na, ieu, euy, aya, mun, mnh, deui, orang, naon Jumlah kata: jadi, bisa, harus dan dapat. Jumlah kata: km, kamu, dia Jumlah kata: syg, kangen, seneng, hapy, pengen, suka, sedih.

Kata :D ;)

Jenis Kata

ya, iya ih di dari yang dan aku saya kamu, km, lu aya, mah, nu, ka, na on, the, of, to, just syg, sayang, kangen, seneng, hapy, suka, sedih jadi, bisa, harus, dapat untuk, utk

Emoticon (tertawa) Emoticon (mengedip, tertawa) Partikel Partikel Kata depan Kata depan Kata penghubung Kata penghubung Kata ganti orang pertama Kata ganti orang pertama Kata ganti orang kedua Bahasa daerah Bahasa asing Term emosi

Selisih antara perempuan dan laki-laki -388 219.0

Selisih (persen) -10.83 % 48.78 %)

kata_untuk kata_partikel kata_asing_daerah

1234 234 -1090 -295 -345 -299 985 -471 397 -1278 -221 504

26.44% 47.37% -20.65% -29.89 % -15.14% -13.50% 43.30% -42.78% 20.52% 38.80% 33.74% 29.96%

kata_kerja_khusus kata_gantiorang_dua kata_emosi

Menggunakan pengukuran information gain, secara berurutan lima fitur yang paling penting untuk memisahkan gender adalah: kata_partikel, kata_asing_daerah, kata_emosi, kata_gantiorang_dua dan kata_kerja_khusus. Ini sesuai jika dibandingkan dengan penelitian sebelumnya yang menggunakan Bahasa Inggris (Burger dkk, 2011) (Argamon dkk, 2009) (Rao dkk, 2010), terutama untuk fitur penggunaan partikel, kata emosi dan kata ganti orang. Perbedaan utama fitur sosiolinguistik antara Bahasa Indonesia dan Bahasa Inggris terletak pada dua fitur yaitu kata_asing_daerah dan kata_kerja_khusus. Pengguna laki-laki lebih banyak menggunakan bahasa daerah dan bahasa asing dibandingkan perempuan dan lebih menggunakan kata jadi, bisa, harus dan dapat. Pada skenario kedua ini, dengan hanya menggunakan fitur linguistik dan klasifikasi SVM kernel linier, diperoleh akurasi

Kata Kerja Kata keterangan

-706 -260

-19.98% -41.40%

Jurnal Cybermatika, Volume 1 [2013], Issue 1, Artikel 5 sebesar 83.01%. Walaupun akurasi fitur linguistik lebih rendah dibandingkan fitur leksikal (83.01% versus 84.94%), tetapi penggunaan fitur linguistik memiliki dua kelebihan: Jumlah atribut yang jauh lebih sedikit. Atribut yang diperlukan untuk fitur leksikal mencapai 824 atribut, sedangkan untuk fitur sosiolinguistik hanya 8 atribut. Atribut yang lebih sedikit membuat proses pembuatan model dan klasifikasi menjadi jauh lebih cepat. Ini bermanfaat saat memproses data berukuran besar. Fitur linguistik lebih robust. Fitur leksikal seperti futsal, nail, persib yang walaupun berperan untuk membedakan gender tapi hanya berlaku untuk domain atau lingkungan terentu. Pada skenario ketiga (leksikal+sosiolinguistik), dilakukan proses penggabungan dua fitur (leksikal dan sosiolinguistik). Akurasi meningkat menjadi 86.22%. Rendahnya peningkatan akurasi mungkin disebabkan karena fitur sosiolinguistik yang digunakan masih berdasarkan perhitungan frekuensi sehingga tidak terlalu memberikan kontribusi karena sudah tercakup di fitur leksikal. Fitur terbaik untuk skenario ketiga ini adalah: kata_partikel, kata_asing_daerah, kata_emoticon, bro, dan *. Kata bro umum digunakan oleh penguna laki-laki sedangakan karakter asterik (*), sering digunakan dalam emoticon :* (cium) dan sebagai tanda aktivitas atau ekspresi, misalnya *mukaaneh*, *lemparponi*, *maksa*, *pede* yang lebih sering digunakan oleh pengguna perempuan.

5. REFERENSI
Aziz, E. Aminudin. "Indonesian English: what's det tuh?." TEFLIN Journal: A publication on the teaching and learning of English 14.1 (2009). Argamon, Shlomo, Moshe Koppel, Jonathan Fine, and Anat Rachel Shimoni. "Gender, genre, and writing style in formal written texts." TEXT-THE HAGUE THEN AMSTERDAM THEN BERLIN- 23, no. 3 (2003): 321-346. Argamon, Shlomo, Moshe Koppel, James W. Pennebaker, Jonathan Schler. "Automatically profiling the author of an anonymous text." Communications of the ACM 52, no. 2 (2009): 119-123. Burger, John D., John Henderson, George Kim, Guido Zarrella. "Discriminating gender on Twitter." dalam prosiding Conference on Empirical Methods in Natural Language Processing, pp. 13011309. Association for Computational Linguistics, 2011. Hong, Lichan, Gregorio Convertino, dan Ed H. Chi. "Language Matters In Twitter: A Large Scale Study." ICWSM. 2011. Java, A.; Song, X.; Finin, T., Tseng, B. Why we twitter: understanding microblogging usage and communities Prosiding WebKDD ke-9 dan workshop pertama SNA-KDD 2007, 56-6 Dewaele, Jean-Marc, Aneta Pavlenko. "Emotion vocabulary in interlanguage." Language Learning 52, no. 2 (2002): 263-322. Rao, Delip, David Yarowsky, Abhishek Shreevats, dan Manaswi Gupta. "Classifying latent user attributes in twitter." dalam prosiding international workshop on Search and mining usergenerated contents, pp. 37-44. ACM, 2010. Surtiati, Rahayu Penulisan dan Gender, Jurnal H MAKARA, SOSIAL HUMANIORA, VOL. 8, NO. 1, APRIL 2004 Twitter, Twitter turns six, https://blog.twitter.com/2012/twitter-turns-six, 2012. Van Durme, Benjamin. "Streaming analysis of discourse participants." InProceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, pp. 48-58. Association for Computational Linguistics, 2012.

4. KESIMPULAN
Berdasarkan eksperimen, akurasi klasifikasi menggunakan fitur leksikal mencapai 84.94%, fitur sosiolinguistik 83.01% dan gabungan kedua fitur 86.22%. Walaupun sedikit lebih rendah akurasinya, fitur sosiolingustik jumlah atributnya jauh lebih rendah (8 berbanding 824), sehingga cocok diaplikasikan pada data berukuran besar atau berbentuk aliran (stream). Terdapat dua perbedaan fitur sosiolinguistik antara Bahasa Indonesia dengan Bahasa Inggris. Pertama penggunaan bahasa asing dan daerah, kedua penggunaan kata tertentu seperti jadi, bisa, dapat, harus. Untuk penelitian berikutnya, perlu digunakan lebih banyak pengguna dari daerah berbeda untuk meneliti lebih lanjut penggunaan bahasa daerah dan melibatkan ahli linguistik untuk menggali lebih mendalam aspek sosiolingustik.

Anda mungkin juga menyukai