Anda di halaman 1dari 5

KLASIFIKASI BAHASA DOKUMEN DENGAN MENGGUNAKAN

JARINGAN SARAF TIRUAN

Esa Prakasaα, Edi Kurniawanβ, Purnomo Husnul Khotimahβ, Taufiq Wirahmanδ


{esa_prakasa, kurniawan, hkhotimah, taufiq}@informatika.lipi.go.id
α
Bidang Komputer, βBidang Otomasi, δBidang Sistem Informasi
Pusat Penelitian Informatika
Lembaga Ilmu Pengetahuan Indonesia, Bandung

ABSTRAK

Sistem klasifikasi bahasa ini adalah hanya bagian dari sebuah sistem yang bisa digunakan sebagai sistem
penerjemah bahasa secara automatis. Sistem mampu mengidentifikasi bahasa yang digunakan pada dokumen teks.
Identifikasi yang dilakukan tidak berdasarkan label dokumen, tanda hyperlink, atau pun pengetahuan pembaca
mengenai bahasa, tapi berdasarkan isi yang terdapat dalam dokumen. Dengan menggunakan beberapa variabel
yaitu: distribusi vokal per kalimat, distrubusi konsonan per kalimat, rata-rata jumlah vokal per kata, dan rata-rata
jumlah konsonan per kata. Keempat ciri ini diharapkan menjadi variabel pembeda yang cukup signifikan dalam
mengenali jenis bahasa. Algoritma jaringan saraf tiruan diterapkan untuk mengolah data keempat variabel tersebut,
segingga diperoleh keluaran yang mampu mengenali 6 jenis bahasa, yaitu: Indonesia, Malaysia, Inggris, Jerman,
Italia, dan Portugis. Keenam bahasa tersebut juga dikelompokkan menjadi 3 kelompok yang serumpun berdasarkan
asal mula bahasa yaitu rumpun: Austronesian (Indonesia & Malaysia), West-Germanic (Inggris & Jerman), dan
Italo-Romance (Italia & Portugis). Pelatihan dan pengujian jaringan saraf tiruan membagi kelompok bahasa
menjadi 3 grup, 2 grup terdiri atas bahasa tidak serumpun dan 1 grup adalah campuran antara bahasa serumpun
dan tidak serumpun. Hasil pengujian menunjukan hanya 1 grup bahasa tidak serumpun, yiatu grup A saja yang
memberikan hasil akhir memuaskan, karena mampu mengenali 3 bahasa anggota grupnya (Indonesia, Inggris, dan
Portugis) dengan rata-rata prosentase keakuratan 88 %. Sisa grup yang lain masing-masing 43 % dan 57 %.
Fenomena bahwa jumlah kalimat uji makin banyak maka prosentase keakuratan makin baik juga hanya ditunjukkan
oleh grup A.

Kata kunci: identifikasi bahasa, dokumen teks, serumpun-tidak serumpun, jaringan saraf tiruan

1. PENDAHULUAN bahasa tersebut. Pengetahuan dalam hal paham


terhadap jenis bahasa tersebut, atau pun karena ada
1.1. Latar Belakang label atau keterangan pada dokumen yang
menjelaskan mengenai jenis bahasa yang sedang
Perkembangan teknologi informasi, terutama digunakan. Mesin-mesin pencari pada internet yang
perkembangan internet memungkinkan ketersediaan ada saat ini, jika diperintahkan untuk mencari
data yang sangat melimpah. Data-data berupa dokumen dengan bahasa tertentu, lebih memilih
dokumen teks juga banyak tersedia dalam beragam keterangan tambahan pada dokumen sebagai acuan
bahasa, seiring dengan makin meluasnya kemampuan mengenal jenis bahasa, dibandingkan benar-benar
ke berbagai penjuru dunia dalam hal mengolah, paham atas bahasa pada isi dokumen tersebut.
menyimpan, dan mendistribusikan dokumen teks.
Kebutuhan mengakses dokumen yang berbeda bahasa 1.2. Tujuan Penelitian
termasuk salah satu kebutuhan dalam interaksi lintas
bahasa dan budaya. Penelitian ini bertujuan menemukan cara yang lebih
handal dalam melakukan identifikasi jenis bahasa
Metode klasifikasi yang dibuat dalam penelitian ini dokumen teks. Kehandalan yang diharapkan bisa
kelak bisa dirangkaikan ke dalam aplikasi diperoleh adalah, dalam kemampuan membedakan
penerjemah dokumen teks automatis. Selama ini jenis bahasa walaupun bahasa-bahasa tersebut masih
untuk menerjemahkan dokumen teks dari suatu tergolog serumpun. Penelitian ini juga bertujuan
bahasa X ke bahasa Y, maka sedikit banyak memperoleh fakta terdapatnya korelasi antara jumlah
seseorang harus mempunyai pengetahuan pada kedua

Prosiding Konferensi Nasional Teknologi Informasi & Komunikasi untuk Indonesia 477
3-4 Mei 2006, Aula Barat & Timur Institut Teknologi Bandung
kata yang harus diberikan saat pengujian dengan Indonesia juga dapat dikatakan sangat modern:
tingkat kehandalan sistem mengidentifikasi bahasa. diresmikan pada kemerdekaan Indonesia, yaitu pada
tahun 1945, dan bahasa Indonesia juga adalah bahasa
1.3. Tinjauan Pustaka dinamis yang terus menyerap kata-kata dari bahasa
asing. Berasal dari rumpun yang sama, Bahasa
Esa Prakasa (2003) telah membuat sistem identifikasi Indonesia adalah dialek terstandardisasi dari bahasa
bahasa dengan menggunakan fungsi jarak untuk Melayu, dan keduanya cukup mirip. Silsilah asal
mengenali 2 bahasa yang tidak serumpun yaitu mula bahasa Indonesia dapat dituliskan mulai dari
bahasa Indonesia dan bahasa Inggris. Dengan Austronesia, Melayu-Polinesia, Melayu-Polinesia
menggunakan dokumen teks yang berasal dari Barat, Sundik, Malayik, Rumpun Melayu, Melayu
internet, diekstraksi pola distribusi karakter abjad ‘A’ Lokal, Bahasa Indonesia. Malaysia menggunakan
sampai dengan ‘Z’ pada kedua bahasa. Pola karakter bahasa Melayu sebagai bahasa formal dalam
kedua bahasa disimpan sebagai pola acuan. Dengan kehidupan sehari-hari. Bahasa Melayu merupakan
menggunakan 6 dokumen uji, terdiri atas 3 dokumen bahasa keempat terbesar yang dituturkan di dunia.
bahasa Indonesia dan Inggris, sistem mampu Penutur bahasa Melayu diperkirakan berjumlah lebih
mengenali bahasa semua dokumen secara tepat 100%. kurang 250 juta jiwa yang merupakan bahasa
Jumlah karakter yang terdapat di dalam setiap keempat dalam urutan jumlah penutur terpenting bagi
dokumen rata-rata lebih dari 1.000 karakter. bahasa-bahasa di dunia. Bahasa Malaysia mempunyai
akar yang sama dengan bahasa Indonesia mengikuti
Gary Adams dan Philip Resnik (2002) jalur berikut ini: Austronesia, Melayu-Polinesia,
mengembangkan aplikasi berbasis pemrograman Java Melayu-Polinesia Barat, Sundik, Malayik, Malayan,
yang mampu memberikan label jenis bahasa pada sat Melayu Lokal, hingga behasa Melayu.
suatu dokumen internet sedang dibuka di browser.
Kemampuan identifikasi bahasa diperoleh dengan Bahasa Inggris adalah bahasa Jermanik Barat, yang
memakai algoritma n-gram. Aplikasi awal ini juga berasal dari Inggris. Bahasa ini merupakan kombinasi
diharapkan mampu menjadi awal pembuatan sistem antara beberapa bahasa lokal yang dipakai oleh
penerjemah dan perangkum multi bahasa pada orang-orang Norwegia, Denmark, Saxon dan Angel
dokumen teks yang tersedia di internet. Mereka juga dari abad ke 6 sampai 10. Lalu sejak tahun 1066
menemukan fakta bahwa identifikasi bahasa dengan bahasa Inggris dengan sangat intensif mulai
memanfaatkan model bahasa berbasis karakter lebi dipengaruhi bahasa Latin dan bahasa Perancis.
baik dibandingkan model bahasa berbasis kata. Kosakata bahasa Inggris modern, diperkirakan terdiri
atas ± 50 % berasal dari bahasa Perancis dan Latin.
Hidayet Takci and Ibrahim Soukpınar (2004) Rangkaian silsilah bahasa Inggris adalah: Indo-Eropa,
merumuskan metode klasifikasi dokumen dengan Jermanik, Jermanik Barat, dan kemudian Bahasa
menggunakan metode klasifikasi berbasis-centroid. Inggris. Bahasa Jerman, adalah nama sebuah bahasa
Data-data frekuensi penggunaan huruf (letter Jermanik barat yang telah mengalami pergeseran
frequencies) menjadi acuan untuk menemukan pola bunyi Jermanik kedua. Bahasa ini adalah salah satu
penggunaan kata. Jenis-jenis kata yang dipakai bahasa yang luas dipertuturkan di Eropa. Bahasa
kemudian bisa menjadi acuan dalam menentukan isi Jerman masih dekat dengan Bahasa Belanda dan
dokumen. Penelitian ini menunjukkan peluang lebih jauh juga Bahasa Inggris. Bahasa Jerman masih
penggunaan distribusi huruf sebagai indikator serumpun dengan bahasa Inggris karena sama-sama
identifikasi bahasa. berakar dari bahasa Jermanik Barat, sesuai dengan
urutan Indo-Eropa, Jermanik, Jermanik Barat, Bahasa
Jerman hulu, dan kemudian Bahasa Jerman.
2. LANDASAN TEORI

2.1. Karakteristik Bahasa

Bahasa-bahasa yang digunakan sebagai data


penelitian secara umum dapat dipahami mempunyai
silsilah asal bahasa, jenis vokal serta konsonan.
Setiap bahasa biasa dituliskan dalam bentuk tulisan
dengan menggunakan karakter-karakter latin.
Bahasa-bahasa tertentu juga menggunakan karakter
khusus selain karakter latin. Bahasa Indonesia adalah
bahasa yang digunakan oleh warga Indonesia. Bahasa

Prosiding Konferensi Nasional Teknologi Informasi & Komunikasi untuk Indonesia 478
3-4 Mei 2006, Aula Barat & Timur Institut Teknologi Bandung
Teknik klasifikasi pola bisa dilakukan dengan
beberapa pendekatan seperti secara statistik hingg
pendekatan iteratif misal dengan menggunakan
algoritma jaringan saraf tiruan. Klasifikasi secara
statistik ditempuh melalui pencari nilai error yang
terkecil antara pola input dengan pola-pola yang
sudah tersimpan di database sebelumnya. Cara
pencarian paling sederhana ini dikenal dengan nama
fungsi jarak.
Penelitian ini akan menggunakan jaringan saraf
tiruan sebagai metode pengenalan pola. Jumlah data
latih dan tingkat keragaman data latih sangat
berperan pada kehandalan jaringan saraf tiruan.

2.3. Jaringan Saraf Tiruan

Jaringan saraf tiruan adalah sistem pengolah


GAMBAR 2.1. CONTOH SILSILAH BAHASA INDO-EROPA.
informasi yang mempunyai sifat sebagaimana
jaringan saraf biologis. Jaringan saraf tiruan
Bahasa Italia adalah sejenis bahasa Roman yang
merupakan model tiruan bagaimana mahluk hidup
dituturkan oleh sekitar 70 juta orang, mayoritas di
memahami dan mengenali informasi disekitarnya.
Italia. Bahasa Italia Standar adalah berdasarkan
Sifat-sifat utama dari jarangan saraf tiruan antara
dialek Toscana dan semacam campuran bahasa-
lain: mempunyai terminal-terminal input data yang
bahasa di Italia Selatan dan bahasa Gallo-Roman di
disebut sebagai neuron. Kumpulan input data
Utara. Urutan sejarah bahasa Italia dapat diurutkan
berbentuk pola yang dianggap cukup mempunyai ciri
seperti berikut ini Indo-Eropa, Italik, Roman, Italo-
fenomena atau pun objek yang akan diamati. Neuron
Barat, Italo-Dalmasia, hingga Bahasa Italia. Bahasa
pada lapisan input terhubung dengan neuron-neuron
Portugis adalah sebuah bahasa Roman yang
lain pada lapisan tersembunyi, hingga lapisan output.
serumpun dengan bahasa Italia. Bahasa Portugis
Antar neuron saling terhubung, dan terdapat nilai
banyak dituturkan di Portugal, Brasil, Angola,
bobot diantara neuron-neuron tersebut. Nilai bobot
Mozambik, Tanjung Verde, dan Timor Timur.
ditemukan melalui proses pembelajaran, hingga
Banyak ahli bahasa yang menganggap bahasa Galisia,
tercapai kesesuaian anatara nilai output hasil olahan
bahasa daerah di Galisia, Spanyol, sebenarnya adalah
dengan nilai yang diinginkan. Algoritma jaringan
sejenis Portugis yang telah dipengaruhi dengan kuat
saraf tiruan banyak digunakan untuk mengatasi
oleh bahasa Spanyol. Sejarat bahasa Portugis dapat
masalah-masalah penyimpanan dan pemanggilan data,
dirunutkan seperti berikut ini, Indo-Eropa, Italik,
klasifikasi dan identifikasi pola, pemetaan pola input
Roman, Italo-Barat, Gallo-Iberia, Ibero-Roman,
dan output, pengelompokan pola, hingga pada
Iberia-Barat, Portugis-Galisia, dan kemudian sampai
pencarian nilai-nilai optimasi.
pada Bahasa Portugis.

2.2. Pengenalan Pola

Kemampuan untuk mengenali sesuatu adalah salah


satu kemampuan yang dipunyai manusia,
sebagaimana mahluk hidup lainnya. Informasi bisa
dikenali dengan menggunakan indera yang dimiliki
setelah terlebih dahulu melakukan pengolahan atas
ciri-ciri objek yang diamati. Masalah yang umum
dijumpai pada sistem pengenalan pola adalah
bagaimana cara menemukan data ciri tepat yang bisa
membedakan satu objek dengan objek lainnya. Cara
membedakan atau dikenal dengan metode klasifikasi GAMBAR 2.2. ARSITEKTUR JARINGAN SARAF TIRUAN.
pola juga harus dipertimbangkan.

Dengan berbagai teknik ekstraksi pola atas suatu


objek dapat diperoleh bentuk matriks vektor pola.

Prosiding Konferensi Nasional Teknologi Informasi & Komunikasi untuk Indonesia 479
3-4 Mei 2006, Aula Barat & Timur Institut Teknologi Bandung
3. METODOLOGI PENELITIAN 4. HASIL DAN PEMBAHASAN

3.1. Ekstraksi Data 4.1. Data Penelitian

Pola yang diekstraksi pada penelitian ini adalah: rasio Berikut ini adalah hasil pengujian masing-masing grup.
karakter vokal dan konsonan pada satu kalimat dan Setiap pengujian bahasa diinputkan satu kelompok
rata-rata jumlah vokal dan konsonan per kata yang kata, yang berasal dari 1, 3, atau pun 5 kalimat.
telah dinormalisasi pada satu kalimat. Pola pelatihan Dengan demkian dilakukan pengujian sebanyak 3.600
dan pengujian diekstraksi dari dokumen teks yang kali. Bobot jaringan saraf tiruan antara ketiga grup
berasal dari berbagai sumber di internet. Karakter- tidak ada yang sama mengingat data latih yang
karakter selain karakter latin pada bahasa Jerman, diberikan disesuaikan dengan keanggotaan grup.
Italia, dan Portugis seperti: ä, ö, ü, ã, dan õ
digolongkan sebagai vokal sesuai dengan aturan tata TABEL 4.1. HASIL UJI GRUP A.
bahasa bahasa, dan selain karakter tersebut dianggap Prosentase Keakuratan Identifikasi dengan
Grup A
kalimat uji sebanyak:
sebagai konsonan. Implementasi parsing karakter
Bahasa 1 Kalimat 3 Kalimat 5 Kalimat
dari sebuah dokumen beserta pengelompokan dan
Indonesia 70% 90% 90%
penghitungan hasil parsing menggunakan program
Inggris 70% 80% 100%
yang ditulis dalam program PHP.
Portugis 90% 100% 100%

3.2. Pelatihan dan Pengujian Sistem TABEL 4.2. HASIL UJI GRUP B.
Prosentase Keakuratan Identifikasi dengan
Grup B
Jaringan saraf tiruan diimplementasikan dengan kalimat uji sebanyak:
menggunakan pemrograman Matlab. Metode yang Bahasa 1 Kalimat 3 Kalimat 5 Kalimat
dipilih adalah Feed Foward Propagation, fungsi Malaysia 0% 0% 0%
pelatihan yang digunakan adalah trainlm(). Rata-rata Jerman 40% 60% 70%
jumlah iterasi selama pelatihan adalah 10.000 dengan Italia 50% 90% 80%
nilai mean square erorr ditetapkan agar tercapai 10-5.
Fungsi transfer yag dipakai adalah logsig (). TABEL 4.3. HASIL UJI GRUP C.
Pelatihan serta pengujian dibagi menjadi 3 tahap, 2 Prosentase Keakuratan Identifikasi dengan
Grup C
kalimat uji sebanyak:
tahap pertama untuk kelompok bahasa yang tidak
Bahasa 1 Kalimat 3 Kalimat 5 Kalimat
serumpun, sedangkan tahap ketiga untuk campuran
antara kelompok bahasa yang serumpun dan tidak Indonesia 30% 10% 0%
serumpun. Dua tahap terdiri atas, tahap 1 dengan Malaysia 90% 90% 90%
menggunakan bahasa Indonesia, Inggris, dan Portugis. Inggris 60% 80% 100%
Tahap 2 dengan bahasa Malaysia, Jerman, dan Italia. Jerman 10% 0% 10%
Sistem dilatih dan diuji dengan menggunakan Portugis 70% 100% 100%
kelompok bahasa yang sama untuk setiap tahapnya. Italia 10% 90% 80%
Jumlah data pelatihan adalah 100 kalimat untuk
setiap bahasa, jadi untuk tahap pertama akan terdapat 4.2. Pembahasan
300 kalimat, yang masing-masing berasal dari bahasa
Indonesia, Inggris, dan Portugis. Demikian pula Berdasrkan data pelatihan dan pengujian, grup A
untuk pelatihan tahap 2 menggunakan cara yang mempunyai kehandalan yang cukup bagus
sama. Pengujian dilakukan dengan memberikan input dibandingkan dengan grup yang lain, rata-rata
pola hasil ekstraksi data dari 1, 3, dan 5 kalimat. ketepatan dalam menetapkan jenis bahasa adalah
Semakin banyak kalimat yang digunakan diharapkan 88 %. Grup B dan C masing-masing 43 % dan 57 %.
menghasilkan pola input yang lebih representatif Hal ini wajar karena ketiga bahasa anggota grup A
secara statistik. Tahap 3 data seluruh bahasa adalah bahasa yang berasal dari rumpun yang
dilatihkan pada jaringan saraf tiruan sehingga berbeda, atau berujung pada asal usul yang sama
ditemukan konfigurasi bobot yang baru, setelah (Inggris dan Portugis sama-sama Indo-Eropa) bahasa-
dianggap konvergen, sistem kemudian diuji dengan bahasa tersebut telah mengalami penurunan panjang
menggunakan bahasa-bahasa yang sama dengan sehingga kekerabatannya cukup jauh. Grup B,
bahasa saat pelatihan. Ektsraksi data pengujian juga seharusnya juga mempunyai sifat pelatihan dan
dilakukan dengan cara yang sama, yaitu melalui 1, 3, pengujian yang sama dengan grup A. Namun hasil
dan 5 kalimat. akhir yang diperoleh justru sistem mengalami
ketidakhandalan yang cukup besar. Ditunjukkan
sangat menguji bahasa Malaysia, tidak ada satu pun

Prosiding Konferensi Nasional Teknologi Informasi & Komunikasi untuk Indonesia 480
3-4 Mei 2006, Aula Barat & Timur Institut Teknologi Bandung
data input yang dikenali dengan baik. Demikian grup 5.2. Saran
C, tidak ada keteraturan pola yang terlihat, sehingga
bisa disimpulkan fakta-fakta tertentu. Tantangan grup Pengembangan lanjutan yang bisa dilakukan antara
C juga lebih berat dibandingkan 2 grup sebelumnya, lain dengan menambah jumlah variabel input, tidak
mengingat sistem harus mengenali bahasa-bahasa terbatas pada 4 variabel saja. Variabel distribusi
yang masih serumpun. masing-masing karakter vokal, konsonan, serta
karakter asing adalah variabel tambahan yang sangat
Kemudian dengan melihat tabel 4.1 hingga 4.3 juga potensial mewakili ciri suatu bahasa. Keseragaman
dapat dilihat bahwa penambahan jumlah kalimat uji, isi berita dalam dokumen teks juga harus lebih
atau bisa diebut juga menambah data sampel uji, bisa dipertimbangkan, terutama adanya kosa kata nama
membantu meningkatkan prosesntase keakuratan sesorang, tempat, kota dsb., juga kosa kata serapan
identifikasi. Seperti diketahui, semakin banyak dari bahasa asing lainnya.
jumlah kalimat, maka semakin banyak jumlah kata
hingga jumlah karakter yang digunakan. Namun
sayangnya fenomena ini hanya tampak pada tabel 4.1 6. REFERENSI
dan sebagian tabel 4.2. Angka-angkat tabel 4.3
menunjukkan bahawa tidak ada pengaruh yang cukup [1] Adams, G., Resnik, P., "A Language
penting antara jumlah kalimat uji dan kenaikan Identificatiaon Application on the Java
prosentase keakuratan identifikasi bahasa. Client/Server Platform", Sun Microsystem
Laboratories, USA, 2002.
Ketidaksempurnaan ini sangat mungkin disebabkan
oleh jumlah variabel data input yang terlalu sedikit. [2] Fausett, L., Fundamentals of Neural Networks,
Dengan 4 variabel sistem dilatih agar mengenali 3 Prentice Hall, New Jersey, USA, 1994.
hingga 6 objek jenis bahasa. Jika ditinjau dari jumlah
pelatihan dan pengujian jaringan saraf tiruan relatif [3] Prakasa, E., "Sistem Identifikasi Bahasa
sudah cukup. Saat pelatihan memang rata-rata Dokumen dengan Berdasarkan pada Distribusi
jaringan saraf tiruan mula-mula konvergen, namun Huruf", Seminar Nasional Teknik Informatika,
nilai MSE stabil pada nilai tertentu. Nilai tersebut Universitas Atma Jaya, Yogyakarta, 16
rata-rata adalah 0,02, suatu nilai MSE cukup besar, September 2003.
mengingat tujuan akhir MSE yang ingin dicapai
adalah 10-5. [4] Takci, H., Soukpınar, I., "Centroid-Based
Language Identification Using Letter Feature
Set", Department of Computer Engineering,
5. PENUTUP Gebze Institute of Technology, 2004.

5.1. Kesimpulan [5] Tou, J.T., Gonzalez, R.C., Pattern Recognition


Principles, Addison-Wesley, Massachusetts,
Jaringan saraf tiruan masih mempunyai peluang yang USA, 1974.
cukup besar pada implementasi indentifikasi serta
klasifikasi jenis bahasa dokumen teks. Empat
variabel yang digunakan pada paper ini, prosentase
vokal-konsonan per kata, serta prosentase vokal-
konsonan per kalimat belum cukup handal. Kondisi
ini ditunjukkan pada pelatihan dan pengujian grup B
dan C. Kehandalan metode hanya ditunjukkan pada
hasil pelatihan dan pengujian grup A. Dengan
demikian sistem mampu mengidentifikasi cukup baik,
hanya untuk kasus 3 bahasa tidak serumpun yaitu
Indonesia, Inggris, dan Portugis. Berapa banyak
jumlah kalimat yang harus digunakan agar
identifikasi bisa dilakukan secara tepat, belum ada
batasan, namun ada kecenderungan makin banyak
makin baik (tabel 4.1). Namun fakta ini tidak terjadi
pada grup lainnya (tabel 4.2 dan 4.3).

Prosiding Konferensi Nasional Teknologi Informasi & Komunikasi untuk Indonesia 481
3-4 Mei 2006, Aula Barat & Timur Institut Teknologi Bandung