Anda di halaman 1dari 14

KORPUS BAHASA DAN URGENSINYA DALAM PEMBELAJARAN

BAHASA ASING

Andinia Wulandary1, Santi2, Wati Susiawati3, Mau’idzhotun Nisa4, Achmad Fudhaili5


Universitas Islam Negeri Syarif Hidayatullah Jakarta, Indonesia
E-mail: andiniawulandary@gmail.com

Abstrak

Dalam sejarah kajian linguistik, istilah korpus sudah ada sebelum tahun 1950-an. Pada
awal kemunculannya, korpus digunakan oleh beberapa ahli bahasa dalam metodologi
penelitian linguistik dengan mengumpulkan data bahasa sebanyak-banyaknya untuk
mendukung teori-teori mereka. Istilah korpus dalam linguistik korpus modern selalu
dikaitkan dengan korpus berbasis komputer yang memberikan keleluasaan pada
peneliti untuk mencari kata atau ekspresi kebahasaan tertentu, menyusun korpus
berdasarkan urutan tertentu, menemukan kata dalam konteks tertentu, dan menghitung
frekuensi kemunculan kata tertentu dalam korpus secara cepat, akurat, dan dalam
skala besar. Oleh karena itu, korpus di era modern lebih ditekankan pada bentuknya
yang elektronis dan unsur keterbacaannya pada mesin. Selain itu, penggunaan
komputer modern juga meningkatkan jumlah dan memperluas jangkauan korpus. Jika
sebelumnya jumlah korpus terbatas oleh keterbatasan manusia dalam mengoleksi dan
mengelola korpus, maka dengan adanya komputer memungkinkan korpus tersedia
dalam jumlah yang sangat besar dan dapat diakses dengan mudah. (Suhardijanti,
2018)

Kata kunci: Korpus Bahasa, Bahasa Asing

1
Pendahuluan

Korpus berasal dari bahasa Latin yang berarti “body” atau kumpulan yang dalam
makna yang terdekat berarti kumpulan teks dari suatu variasi bahasa yang dapat
semaksimal mungkin merepresentasikan suatu kecenderungan atau fenomena dari variasi
tersebut. (Wirza, 2011) Oleh karena itu, kita tidak berbicara tentang beberapa teks saja,
akan tetapi kumpulan teks yang bisa saja terdiri dari ratusan ribu bahkan jutaan kata untuk
dapat melihat suatu fenomena bahasa.

Linguistik korpus (bahasa Inggris: corpus linguistics) adalah sebuah bidang yang
fokus pada prosedur atau metode untuk mempelajari atau meneliti bahasa. Metode
linguistik ini menggunakan data dari bahan-bahan bahasa yang terkumpul dalam suatu
sumber yang disebut korpus (jamak: korpora) yang berasal dari penggunaan bahasa dalam
berbagai genre, ragam, dan bahan lisan maupun tertulis yang menjamin keragaman yang
seluas-luasnya dan menghindari penggunaan bahasa yang sangat sempit seperti
idiolek.(Mcenery, 1996) Mudahnya, linguistik korpus adalah sebuah metode empiris
dalam analisis dan deskripsi linguistik untuk meneliti bahasa yang dipakai oleh para
penutur secara alamiah.(Cheng, 2011) Metode ini semakin luas digunakan dan bisa untuk
meneliti berbagai masalah kebahasaan dalam lingkup yang luas dan bahkan mampu
menyingkap hal hal yang menarik, fundamental, bahkan mengejutkan‖ dari data-data
kebahasaan yang ada.

Data kebahasaan seperti apa yang bisa dianalisis secara linguistis dengan metode
ini? Nesselhauf menyebutkan, secara umum, data itu dibagi ke dalam dua kelompok besar,
yaitu data yang diperoleh dari intuisi, baik intuisi si peneliti maupun intuisi informan, dan
bahasa yang digunakan sehari-hari secara natural, bisa dari percakapan ringan dan bisa
juga sekumpulan teks yang dikoleksi dan dikelola secara sistematis. Data jenis itulah yang
disebut korpus (jamak: korpora). Lebih lanjut, masih menurut Nesselhauf (2011:3), korpus
adalah teks dari penggunaan bahasa lisan dan tulisan yang praktis serta alamiah dan
dikumpulkan secara sistematis. Maksud dari sistematis adalah penyusunan struktur dan isi
teks itu didasarkan atas prinsip luar bahasa, seperti konteks waktu, tempat, dan lainnya,
serta memungkinkan untuk diteliti lebih jauh mengenai aspek-aspek yang ada di dalamnya.

Data-data tersebut disusun secara sistematis dan mudah diakses secara elektronis
melalui komputer. Metode ini digunakan dalam linguistik deskriptif maupun linguistik
terapan, seperti penyusunan kamus, untuk menjamin bahwa data yang digunakan benar-
benar berasal dari penggunaan yang luas dan terhindar dari penggunaan subjektif. Selain
itu, korpus dapat membantu menyediakan, mengumpulkan, dan mengatur data linguistik
untuk tujuan penelitian dan akademis lainnya, termasuk pedagogi.(Nasselhauf, 2011)

Metode

Tognini (2001) menyatakan dua pendekatan linguistik korpus, yaitu berbasis korpus
(corpus-based) dan dikendalikan korpus (corpus-driven). (Waskita, 2017) Keduanya
memiliki perbedaan dalam memandang korpus sebagai bukti yang dapat mendukung teori.

2
Pendekatan yang berbasis korpus bersifat deduktif, sedangkan pendekatan yang
dikendalikan korpus bersifat induktif, yakni menganggap korpus sebagai bukti yang harus
menjadi acuan teori.

Cara menganalisis data korpus dapat dimulai dari metadata, penanda teks, dan anotasi.
1. Metadata, yaitu memberi informasi tentang siapa yang memproduksi teks, kapan, dan
penggunaan bahasa dalam teks.
2. Penanda teks atau textual markup, meliputi tanda yang digunakan dalam penulisan teks,
seperti tipologi (misalnya cetak miring).
3. Anotasi, yaitu memberi informasi mengenai fitur linguistik data bahasa tersebut, seperti
penambahan kelas kata. Misalnya verba, nomina, adjektiva, atau adverbia.
Hal penting lain dalam linguistik korpus adalah tersedianya alat yang memungkinkan
untuk mencari korpus dalam format baris secara vertikal atau biasa disebut konkordansi.
Alat berupa perangkat lunak komputer yang digunakan untuk melakukan korkodansi
berkembang dari generasi ke generasi hingga generasi keempat yang kini berbasis web.
Perhitungan statistik yang dapat digunakan untuk mengolah data linguistik korpus
meliputi statistik deskriptif dan tes signifikansi untuk menguji seberapa mungkin hasil
tertentu merupakan sebuah kebetulan, misalnya dalam menghitung kata kunci dan kolokasi.
Pendekatan korpus terdiri dari 4 (empat) karakteristik utama: (Bennett, 2010)
1. Empiris, yaitu analisis berdasarkan pola-pola penggunaan yang aktual; Korpora terdiri
atas segala tindak komunikasi, seperti kumpulan teks buku, fiksi, nonfiksi, majalah,
paper, karya sastra, koran, percakapan di telepon, percakapan di ponsel, rapat, kuliah,
siaran radio, dan tayangan televisi. Dengan kata lain, situasi apapun dalam konteks
linguistik dapat berbentuk korpus.
2. Menggunakan koleksi teks yang besar dan terstruktur sebagai dasar analisis;
Karakteristik ini mengacu pada korpus itu sendiri yang dapat berbentuk korpus tulis,
korpus lisan, dan lain-lain.
3. Memanfaatkan penggunaan teknologi dalam analisis; Penggunaan teknologi dalam
konteks ini tidak hanya berperan untuk menyimpan korpora saja, tetapi juga membantu
menganalisis bahasa dalam sebuah korpus. Korpus diakses dan dianalisis oleh program
korkodansi yang ada dalam komputer.
4. Menggunakan teknik analisis kuantitatif dan kualitatif; Hasil kuantitatif yang dihasilkan
dari korpus nantinya akan dianalisis secara kualitatif untuk menemukan simpulan
penelitian

3
Dalam hal penyusunan korpus bahasa, kini sudah tersedia banyak sekali
model korpus bahasa. Lebih khusus, dilihat dari tipenya, ada beberapa jenis korpus
yang bisa digunakan bergantung pada jenis analisisnya. Berikut macam-macamnya:
(Hizbullah, 2016)
1. Korpus general/referensi, contoh: British National Corpus (BNC)- vs‖ korpus khusus,
yang dibuat untuk merepresentasikan suatu bahasa secara umum dan menyeluruh, terdiri
atas data bahasa tertulis dan lisan yang kemudian ditranskripsikan serta bersumber dari
berbagai jenis teks.
2. Korpus historis, contoh Helsinki Corpus-vs korpus bahasa modern, yang disusun untuk
merepresentasikan periode-periode tertentu dari perkembangan suatu bahasa.
3. Korpus regional, seperti Wellington Corpus of Written New Zealand English (WCNZE),
disusun untuk merepresentasikan variasi bahasa dari suatu kawasan.
4. Korpus pembelajar, seperti International Corpus of Learner English (ICLE)-vs korpus
penutur asli, yang dibuat untuk merepresentasikan bahasa yang diproduksi oleh para
pembelajar asing bagi bahasa tersebut dan bukan merupakan penutur asli.
5. Korpus multilingual-vs korpus ekabahasa, yang merepresentasikan sedikitnya suatu
fenomena dari dua bahasa yang bersumber dari ragam teks yang sama, biasanya
digunakan untuk keperluan analisis kontrastif.
6. Korpus lisan-vs korpus tulisan vs campuran lisan-tulisan, untuk merepresentasikan
bahasa lisan dari suatu masyarakat penutur bahasa.

Ada satu jenis korpus lain yang penyusunannya didasarkan bukan pada sumbernya,
tapi berdasarkan suatu tahapan dalam proses awal pengolahannya, yaitu korpus beranotasi
vs korpus ortografis. Dalam korpus beranotasi, beberapa jenis analisis linguistik biasanya
sudah dilakukan terhadap teks sehingga sudah memuat anotasi yang sejatinya bukan bagian
asli dari teks tersebut.( Nesselhauf, 2011)
Berbagai bahasa di dunia kini sudah diterjamahi oleh linguistik korpus. Sekian banyak
korpus bahasa dengan segala tipenya bermunculan dan beberapa diantaranya bahkan
terbuka dan bisa diakses oleh publik. Wikipedia, misalnya, mendata ada sejumlah korpus
bahasa yang dibagi ke dalam beberapa kelompok bahasa. Uniknya, bahasa Inggris berada
dalam kelompok tersendiri karena ketersediaan banyak sekali ragam dan sumber korpusnya,
seperti yang paling terkemuka dan termutakhirkan adalah British National Corpus (BNC),
American National Corpus (ANC), Corpus of Contemporary American English (COCA),
Bank of English, Brown Corpus, Oxford English Corpus, dan lain sebagainya. Selain

4
kategori bahasa Inggris, dalam rumpun bahasa-bahasa Eropa, misalnya, tercantum nama-
nama seperti Bulgarian National Corpus, Croatian Language Corpus, Czech National
Corpus, Thesaurus Linguae Graecae, German Reference Corpus, dan lain-lain.
Untuk bahasa-bahasa Asia, situs ini mencantumkan kategori Asia Timur yang berisi
Kotonoha Japanese Language Corpus dan LIVAC Synchronous Corpus untuk bahasa
China. Selain itu, ada pula kategori bahasa-bahasa Timur Tengah yang berisi Hamshahri
Corpus untuk bahasa Persia, Neo-Assyrian Text Corpus Project, Turkish National Corpus,
dan Quranic Arabic Corpus. Yang menarik, ada pula kategori korpus paralel multibahasa,
semacam Open Source Parallel Corpus, NTU- Multilingual Corpus, dan kategori
Comparable corpora, seperti WaCky – The Web-As- Corpus Kool Yinitiative Web as
Corpus yang memuat kombinasi bahasa Inggris, Prancis, Jerman, dan Italian,
Disambiguating Similar Language Corpora Collection (DSLCC) yang berisi banyak sekali
bahasa antara lain Bosnia, Kroasia, Serba, Indonesia, Malaysia, Cek, dan lain-lain, serta
Wikipedia Comparable Corpora.

Hasil dan Pembahasan

Masa awal penyusunan korpus saat Penggunaan korpus dalam penelitian bahasa
termasuk pendekatan yang cukup baru. Linguistik korpus muncul pada era 1960-an,
bersamaan ketika Noam Chomsky memberi dampak yang besar terhadap kajian bahasa
modern. Bukunya yang berjudul Syntactic Structures muncul pada tahun 1957 dengan cepat
menjadi teks yang banyak dibahas. Buku kedua, Aspects of Theory of Syntax yang terbit
pada 1965 memicu revisi standar paradigma dalam linguistik teoretis. Namun, ketika teori
bahasa menjadi semakin berfokus pada bahasa sebagai fenomena universal, ahli bahasa lain
semakin tidak puas dengan deskripsi yang mereka temukan untuk berbagai bahasa mereka
kaji. Beberapa aturan tata bahasa dalam deskripsi tersebut tidak selaras dalam teks-teks
tertulis. Oleh karena itu, data bahasa alami diperlukan.
Pada akhir 1950-an Randolph Quirk melakukan pengumpulan data bahasa (Survey of
English Usage) untuk penelitian tata bahasa secara empiris. Awalnya data yang diperoleh
tidak terkomputerisasi dan baru pada pertengahan 1980-an dilakukan oleh Quirk dan
Greenbaum. Proyek itu dikenal dengan International Corpus of English (ICE). Data korpus
terdiri atas 1 juta kata yang meliputi data lisan (500 ribu kata) dan tulis (500 ribu kata).
Proyek korpus kedua dilakukan pada 1960-an, yaitu Brown Corpus, diambil dari
Brown University di Providence, Rhode Island. Korpus yang disusun oleh Nelson Francis
dan Henry Ku?era ini terdiri atas 1 juta kata. Sampelnya 2 ribu kata diambil dari 500 teks

5
Amerika yang meliputi 15 kategori teks seperti yang terdapat dalam Library of Congress,
perpustakaan nasional Amerika. Brown Corpus disusun dengan cermat dan sangat mudah
digunakan, dan sudah melalui proses baca ulang (proofread) sehingga hampir tidak ada
kesalahan.
Proyek korpus yang ketiga adalah English Lexical Studies, dimulai di Edinburgh pada
1963 dan diselesaikan di Birmingham. Proyek itu dipimpin oleh John Sinclair, orang yang
pertama kali menggunakan korpus secara khusus untuk penelitian leksikal dan yang
membawa konsep baru tentang kolokasi. Proyek itu berbasis sampel teks elektronik bahasa
lisan dan tulis yang sangat kecil, tidak sampai satu juta kata.
Proyek korpus berikutnya dibuat untuk kepentingan penyusunan kamus, yaitu Collins
Cobuild English Language Dictionary, yang disusun pada pertengahan 1970-an dan
diterbitkan pada 1987 di bawah panduan John Sinclair. Itu adalah pertama kalinya kamus
bahasa umum yang disusun berdasarkan korpus. Oleh karena itu, korpus tersebut harus
cukup besar agar dapat memasukkan seluruh lema dan makna kata yang tercakup di
dalamnya. Korpus tersebut terdiri atas 18,3 juta kata.
Selanjutnya, proyek korpus terus bermunculan, di antaranya London-Lund Corpus of
Spoken English (500 ribu kata, lisan), British National Corpus (100 juta kata), Bank
of English (455 juta kata), American National Corpus (14 juta kata), Corpus of
Contemporary American English (450 juta kata), dan International Corpus of English (1
juta kata dari setiap variasi regional/nsional).
Korpus Bahasa Arab dan Kajiannya
Secara khusus, sudah tersedia beberapa korpus bahasa Arab yang dibuat dengan
segala kekhususan, kelebihan, dan tak ketinggalan kekurangannya masing- masing. Dalam
penyusunan korpus bahasa Arab, melalui suatu aplikasi di laman Sketch Engine, misalnya,
ada korpus yang isinya lebih kurang 5,8 juta kata (versi 2012) dan diperbarui menjadi 8,3
juta kata (versi 2015)1 yang diambil dari sejumlah sumber.
Selain itu, Alsubaiti menginventarisasi daftar yang lebih lengkap lagi, sekitar 18 jenis
korpus, yang berasal dari berbagai sumber dan digunakan untuk berbagai bidang kajian
spesifik yang ada di sublaman University of Leeds, di antaranya Corpus of Contemporary
Arabic, Arabic Gigaword, dan yang sedang dalam pengembangan adalah International
Corpus of Arabic oleh University of Alexandria, Mesir. Sekian banyak korpus itu terbagi
ke dalam dua kelompok besar, yaitu yang dapat diunduh dengan berbayar dan tak berbayar.
Di samping korpus bahasa Arab, ada pula korpus khusus mengenai Al-Qur'an. Sejauh
ini, menurut pengamatan kami, yang terlihat paling representatif adalah karya University of

6
Leeds, yaitu The Quranic Arabic Corpus.3 Tidak hanya korpus Al- Qur'an, laman itu
memuat model-model analisis kebahasaan Al-Qur'an, seperti terjemah kata-per-kata dalam
bahasa Inggris, kamus kosa kata Al-Qur'an, pohon sintaksis struktur konsep dan kata, dan
gramatika Al-Qur'an.
Laman ini menyediakan pula file digital Al-Qur'an dalam format txt yang bisa diunduh
untuk bahan analisis. Namun, file tersebut hanya berisi teks Al-Qur'an dalam transliterasi
latin, bukan Arab, meskipun dilengkapi dengan status gramatikal setiap kata. Kajian
mengenai linguistik korpus Arab, dan khususnya Al-Quran, antara lain dilakukan oleh
Sharaf (2009). Ahli yang satu ini memperkenalkan serangkaian risetnya berikut hasil
pemetaan konseptual terhadap isi Al-Qur'an dengan aplikasi tertentu. Namun, di laman
webnya, tidak ada bahan digital olahannya yang dapat diunduh dan dimanfaatkan untuk
penelitian lebih lanjut.
Salah satu langkah penyusunan korpus umum bahasa Arab yang mencantumkan Al-
Qur'an sebagai salah satu sumbernya adalah yang dilakukan oleh Al-Rabia (et.al., 2014).
Korpusnya dinamakan King Saud University Corpus of Classical Arabic (KSUCCA).
Sesuai namanya, mereka hanya fokus mengambil korpus dari bahasa Arab periode klasik
dan Al-Qur'an diasumsikan termasuk ke dalam periode itu.
Mereka beralasan, pola bahasa Arab klasik adalah merupakan dasar teori linguistik
Arab dan harus dipandang sebagai sumber ilmiah-akademis. Korpus ini berisi 50 juta kata
dari khazanah pustaka bahasa Arab masa klasik dan digunakan antara lain untuk keperluan
studi distribusi semantik leksikal Al-Qur'an dan bahasa Arab klasik dengan pendekatan
linguistik komputasional.
Namun selain menggambarkan struktur korpus, penelitian mereka juga
mendeskripsikan beberapa gejala perubahan bahasa dari masa klasik ke masa modern. Ada
karya lain yang lebih spesifik lagi, misalnya, Sharaf dan Atwell (2012). Mereka membuat
Al-Qur’an, korpus Al-Qur'an beranotasi khusus pada kasus anafora pronominal. Penelitian
itu diarahkan kepada analisis pronomina dalam Al- Qur'an dan pola kemunculan anafora
yang terkait dengan pronomina dan kaitan antesedennya dalam ayat-ayat Al-Qur'an. Untuk
kopus “The Qur’an Arabic Corpus” bisa dilihat di web. http:/The Quranic Arabic Corpus -
Word by Word Grammar, Syntax and Morphology of the Holy Quran.
Model analisis penelitian ini bermanfat untuk diterapkan pada analisis pronomina,
anafora, dan antesedennya dalam wacana bahasa Arab modern dan perbandingan kedua
masa itu. Salah satu contoh lain penelitian korpus Al-Qur'an yang lebih spesifik adalah
karya Imad dan Abdelhak (2016). Mereka melakukan penelitian untuk menyusun korpus

7
Al-Qur'an khusus untuk penelitian di bidang morfologi Arab. Mereka menggunakan teks Al
Qur'an dan juga memanfaatkan tabel morfologi Al-Khalil. Mereka menggunakan data daru
Quranic Arabic Corpus milik University of Leeds dan Quranic Corpus of Haifa milik
University of Haifa sebagai pedoman.
Langkah selanjutnya, mereka membuat analisis dan kritik terhadap konsep akar kata,
serta diakhiri dengan perbandingan antara keduanya dan pemaparan pola rumusan si peneliti
sendiri. Sebagai simpulan terhadap penelitian terdahulu, dapat dikatakan bahwa penggunaan
pendekatan linguistik korpus di kalangan peneliti bahasa Arab sudah sedemikian marak.
Semestinya para ahli dan peminat kajian bahasa Arab di Indonesia masuk ke percaturan ini
dan ikut menyemarakkan kajian bahasa Arab berbasis korpus.
Keunggulan Korpus

Publikasi tentang corpus linguistics (Aarts, 1991; Flalliday, l99l; $elbner, 1991;
Levin, 1991; Francis, 1993; Willis, 1990) telah membuktikan reliabilitas korpus sebagai
sumber iriformasi tentang perilaku kata dalam kalimat. Keunggulan korpus ini disebabkan
karena korpus dapat diciplakan dari contoh pengunaan bahasa yang nyata dan alami serta
otentik, dan sumbernya dapat diambil dari berbagai publikasi, bahkan dari rekamantisan. Di
samping itu, korpus juga dapat dikembangkan untuk tujuan khusus, misalnya untuk
membuat deskripsi dialek tertentu, seperti The Corpus of Spoken American Engltsk (CSAE)
atau untuk urjuan pengajaran.

Penutur asli suatu bahasa mungkin dapat mengandalkan intuisi mereka dalam
memahami dan mendeskripsikan bahasanya. Akan tetapi dalam beberapa hal intuisi sering
kurang akurat menggambarkan cara sebenarnya penutur asli menggunakan bahasanya. Hal
ini semakin terasa apabila peneliti bahasa menghadapi kata-kata dengan frekuensi tinggi dan
struktur semantis yang kompleks. Kata-kata kategori ini memerlukan pengamalan yang
lebih cermat melalui data bahasa dalam skala besar. Namun tidak berarti intuisi tidak
penting bagi seorang pakar bahasa seperti yaag dikemukakan oleh Francis sebagai
berikut:“intuition maybe useful to linguists in a number of ways, but for the purposes of
saying exactly how language is used, it is notoriously unreliable. Even when people are
describing their own language practices, there is often a difference between what they think
they say and what they actually do say..." (Fox, 1993:139).

Masalahnya dalam pemakaian bahasa apa yang terpikir oleh penutur sering tidak
sejalan dengan apa yang mereka katakan. Perbedaan ini terkait dengan subjektivitas penutur
bahasa. Kesimpulannya intuisi penutur bahasa tidak sepenuhnya dapat diandalkan untuk
mendeskripsikan suatu bahasa. Ilustrasi dari kasus ini dapat diambil dari Willis (1990) yang
menemukan bahwa kata some dalam tata bahasa Inggris sebagai bahasa asing yang sering
dianggap sebagai properti kalimat afirmatif sedang kataa any cenderung diasosiasikan
dengan kalimat negatif dan interogatif, tenyata tidak seluruhnya benar.

8
Dari contoh di atas jelas bahwa penggunaan korpus dapat mengatasi keterbatasan
intuisi peneliti bahasa. Studi berdasarkan korpus sebagai sumber data telah mengingatkan
kelemahan yang akan dijumpai apabila peneliti terlalu mengandalkan inttrisi. Hal ini
sekaligus memperkuat keandalan korpus sebagai sumber informasi bahasa. Ketidak andalan
intuisi penutur asli yang telah diisyaratkan itu juga memberikan peringatan kepada penuuu
nonasli (non native speakers) yang berupaya untuk menyusun deskripsi bahasa dri judgment
mereka sendiri. Dalam kerangka ini, Text Corpora menjadi altenatif terbaik sebagai provider
informasi bahasa. ( Priyono, 2016)

Urgensi Korpus Dalam Pembelajaran Bahasa Asing


Pengertian Bahasa Asing menurut Kamus Linguistik, Kridalaksana (2001: 21) bahasa
asing (foreign language) adalah bahasa yang dikuasai oleh bahasawan, biasanya melalui
pendidikan formal, dan yang secara sosiokultural tidak dianggap bahasa sendiri. Menurut
Kamus Besar Bahasa Indonesia, Bahasa asing adalah bahasa milik bangsa lain yg dikuasai,
biasanya melalui pendidikan formal dan yang secara sosiokultural tidak dianggap sebagai
bahasa sendiri (arti); Bahasa asing adalah bahasa yang tidak termasuk bahasa Indonesia dan
bahasa daerah, seperti bahasa Inggris, Cina, Arab, dan Hindi (glosarium). Sedangkan Chaer
(2009:37) menggunakan istilah bahasa target yang merupakan bahasa yang sedang
dipelajari dan ingin dikuasai.
Dari pengertian Bahasa Asing diatas dapatlah dipahami bahwa Bahasa Asing adalah
Bahasa yang kita peroleh dari pendidikan formal dan bukan dari bahasa yang kita peroleh
sejak kecil. Pada zaman modern seperti sekarang ini, kita tidak dapat menghindari
menggunaan Bahasa asing sebagai alat komunikasi baik lisan maupun tulisan. Dalam
pembelajaran di sekolah formal maupun nonformal Bahasa asing sudah masuk dalam
kurikulum pembelajaran, seperti Bahasa Inggris, Perancis, Jerman, Mandarin, Arab dan
masih banyak bahasa lainnya. Dalam pembahasan korpus kali ini kami akan mengaitkan
pentingnya korpus dalam pembelajaran Bahasa Asing.
Pentingnya korpus dalam pengajaran dan penelitian bahasa terutama karena data
korpus berasal dari data empiris yang dikumpulkan secara sistematis (McEnery and Wilson,
2007). Ditambah dengan kemampuan komputer untuk memproses data dalam jumlah besar,
maka korpus menjadi suatu alat analisis yang penting sekaligus praktis dalam pengajaran
dan penelitian bahasa (Milroy, 1987). (Wirza, 2011)
Pengembangan korpus untuk studi kebahasaan dilakukan dengan pertimbangan akan
kemampuannya dalam memberikan data tentang penggunaan bahasa yang sebenarya oleh
penutur asli. Data tersebut dapat berupa informasi bahasa antara lain perilaku kata, kolokasi,

9
kelaziman penggunaan Bahasa, frekuensi penggunaan kata, dan variasi stuktur kalimat.
(Priyono, 2016)
1. Perilaku Kata
Yang dimaksud dengan perilaku kata dalam hal ini adalah struktur sintaktis yang
membuat sebuah kata dapat berfungsi dalam membentuk kalimat secara gramatikal.
2. Kolokasi
Ada kecenderungan bahwa suatu kata "memilih" kata-kata tertentu lainnya untuk
berdampingan dalam kalimat atau wacana yang lebih luas. Kemunculan kata tertentu untuk
berkolokasi dengan suatu kata sering tidak dapat diprediksi. Ini disebabkan karena
pemilihan kata (lexical selection) sangat dipengaruhi oleh sifat idiosinkratis dari kata yaag
bersangkutan. Ada dua macam kolokasi dalam kalimat, yaitu kolokasi gramatikal dan
kolokasi leksikal. Yang pertama terjadi apabila suatu kata bermakna (content word)
berkolokasi dengan kata fungsi (function word). Contoh dalam bahasa Inggis adalah
munculnya phrasa verb yang terdiri atas kata kerja dan preposisi, misalnya wait for, look
over dan listen to. Yang kedua terjadi apabila kolokasi tersebut terdiri atas dua atau lebih
kata bermakna seperti student diary, press conference, dan price tag. Informasi tentang
kolokasi kata ini dapat diamati melalui korpus dengan ukuran besar (misalnya 10 sampai 20
juta kata).
3. Kelaziman Penggunaan Bahasa
Dengan ukuran besar, korpus dapat memberikan contoh nyata cara penutur
menggunakan bahasa secara wajar. Kinerja korpus ini dimungkinkan karena bahasa yang
dipakai tidak artifisial, melainkan terjadi dalam w:rcana yang alami. Contoh-contoh yang
diambil dari korpus adalah yang lazim dipakai masyarakat penutur bahasa. Dengan
demikian otentisitasnya terjamin. Misalnya kata cook, dilihat dari kekayaan sintaktisnya
dapat dipakai dalam struktur sintaktis simple transitive, benefactive, dan dative.
4. Frekuensi Penggunaan Kata dan Variasi Kalimat
Korpus juga menampilkan data frekuensi penggunaan kata dalam teks. Daftar kata
berdasarkan frekuensi dapat diperoleh seperti yang telah dikembangkan oleh Cobuild
Project (CCEED) yang memuat 2.000 kata yang paling sering digunakan. Daftar kata
semacam ini dapat dimanfaatkan untuk kepentingan pengembangan materi belajar kosakata.
Di samping itu variasi kalimat dan struktur sintaktis yang dapat dibentuk oleh kata dapat
pula diamati frekuensi kejadiannya. Bagi pengajaran dan proses belajar, informasi mengenai
frekuensi variasi kalimat dapat dipakai untuk menentukan skala prioritas materi kebahasaan
yang perlu dikuasai oleh pelajar Bahasa.
Untuk dapat mengoptimalkan penggunaan korpus, ada beberapa tahap yang harus
dilakukan. Anda harus memiliki beberapa alat atau software yang di antaranya dapat
diunduh gratis di internet. Seperti alat konkordasi AntConc, SCP ; paralel ; atau Vocabulary
Profiler RANGE. Khusus untuk alat konkordasi paralel, hanya bisa dioperasikan oleh
software berbasis Apple seperti halnya Vocabulary Profiler RANGE untuk software
berbasis Windows. Setelah mengunduh korpus yang diinginkan dan telah menginstal
software yang dibutuhkan, Anda bisa dengan mudah menganalisis teks sesuai kebutuhan.
Konkordasi adalah program yang dapat melakukan hal-hal sebagai berikut: mencari
(search) suatu kata/frase, menampilkan (retrieve) kata/frase yang diperlukan, menghitung

10
(calculate) jumlah atau frekuensi penggunaan kata/frase, serta memilih (sort) kata/ frase
berdasarkan kategori tertentu (Meyer, 2002). (Wirza, 2011)
Alat-alat konkordasi untuk korpus tak hanya menganalisis bahasa Inggris namun juga
bahasa lainnya seperti bahasa Arab. Sebagai contoh adalah analisis penggunaan part of
speech, semisal preposisi apa saja yang mengikuti kata symbol dalam korpus berbahasa
Inggris. Atau kata min dalam korpus bahasa Arab. Selain itu, penggunaan alat ini juga bisa
menyajikan hasil analisis berupa data kuantitas seperti banyaknya penggunaan kata tertentu
dalam korpus yang diinginkan.
Kedudukan korpus dalam studi kebahasaan menjadi begitu kuat sehingga tidak perlu
lagi diragukan pentingnya sebagai sumber informasi tentang grammar dari suatu bahasa.
Pernyataan ini memperoleh banyak dukungan luas dari mereka yang memanfaatkan korpus
dalarn studi kebahasaan, misalnya dalam upaya menyusun deskripsi suatu bahasa atau
pengembangan materi pelajaran bahasa asing atau bahasa kedua (literatur studi kebahasaan
berdasarkan korpus ini dapat dilihat pada Willis, 1990; Aijmer danAltenberg, 1991; Fox,
1991; Levin, 1991; Sinclair, 1991; Francis, 1993). ( Suherman, 2011)
Jika mempelajari sebuah bahasa baru dan menemukan kata baru, bagaimana bisa
mempelajari arti dan penggunaannya? Margot Palmer dari Hawthorn Learning menjelaskan
bagaimana para pelajar bahasa dapat menggunakan corpus untuk membantu mereka belajar
dan meningkatkan kosakata mereka dengan cara yang berarti. Sebuah corpus adalah
kumpulan teks yang menangkap penggunaan bahasa dalam bentuk tertulis atau lisan. Ini
akan memberi contoh bagaimana sebuah bahasa digunakan dalam situasi kehidupan nyata.
Anda bisa mengakses corpora yang berbeda secara online.
Margot mengatakan dengan menggunakan korpus, Anda mendapatkan konteks kata yang
ingin Anda pelajari. Dia memberi contoh kata 'depend' di bawah ini.

Corpus yang menunjukkan bagaimana penggunaannya dalam bahasa Inggris. "Bila


Anda hanya mendapat sedikit laporan kecil seperti ini, Anda perlu melihat ke kiri dan
melihat ke kanan," kata Margot. "Jadi hanya dengan melihat penggunaan kata ‘depend’
dalam konteks ini, Anda dapat melihat bahwa konstruksi umumnya adalah ‘depend on’ atau
‘bergantung pada '. Dan jika Anda melihat ke arah kanan, Anda bisa melihat berbagai jenis

11
kata benda yang digunakan dengan kata ‘depend’ tersebut.” Dengan melihat hasil pencarian
corpus di atas, Anda bisa melihat bahwa (modal) + depend + (on) adalah sebuah bentuk
potongan Bahasa yang umum.

Sebuah korpus bisa memberi contoh potongan bahasa dan ini membantu untuk
memahami konteks dan penggunaan kata yang ingin dipelajari. "Semakin banyak membaca,
semakin banyak mendengarkan, semakin terbiasa untuk melihat potongan bahasa. Semakin
banyak yang dapat dipelajari mengenai konsep dan konteks dari sebuah kata, dan
menggunakannya, semakin mudah menghafalnya," "Jika Anda mencoba sepotong kata dan
Anda melihat ada reaksi yang aneh, coba kata lain yang sesuai," papar Margot.

Keuntungan lain menggunakan corpus adalah membantu untuk memahami frekuensi


kata yang ditemukan. Frekuensi menunjukkan seberapa sering kata tersebut digunakan oleh
penutur asli dalam konteks berbicara atau tertulis. Misalnya, kata 'efficaciousness', yang
identik dengan kata ‘effectiveness/keefektifan’, memiliki frekuensi 10. Itu berarti jarang
digunakan oleh penutur bahasa Inggris sehingga maknanya mungkin tidak banyak
diketahui. "Jika penutur asli mengatakan bahwa mereka tidak mengerti kata yang Anda
gunakan, Anda perlu mendengarkannya karena setiap kata memiliki frekuensi. "Jadi jika
sudah digunakan 10 kali, itu bukan kata dengan frekuensi penggunaan yang tinggi. Penutur
asli memberi tahu Anda bahwa kata "effectiveness/efektivitas "jauh lebih mudah dipahami.

Tujuan dari setiap pembelajar bahasa adalah dapat dipahami, jadi walaupun Anda
mungkin sangat bangga karena Anda telah mempelajari kata-kata yang sangat panjang ini,
jika orang tidak memahami Anda, maka itu tidak membantu komunikasi Anda. Secara
umum semakin lama sebuah kata maka semakin rendah tingkat keseringan sebuah kata itu
digunakan".

Kesimpulan

Korpus berasal dari bahasa Latin yang berarti “body” atau kumpulan yang dalam
makna yang terdekat berarti kumpulan teks dari suatu variasi bahasa yang dapat semaksimal
mungkin merepresentasikan suatu kecenderungan atau fenomena dari variasi tersebut. Oleh
karena itu, kita tidak berbicara tentang beberapa teks saja, akan tetapi kumpulan teks yang
bisa saja terdiri dari ratusan ribu bahkan jutaan kata untuk dapat melihat suatu fenomena
bahasa.

Linguistik korpus (bahasa Inggris: corpus linguistics) adalah sebuah bidang yang
fokus pada prosedur atau metode untuk mempelajari atau meneliti bahasa. Metode linguistik
ini menggunakan data dari bahan-bahan bahasa yang terkumpul dalam suatu sumber yang
disebut korpus (jamak: korpora) yang berasal dari penggunaan bahasa dalam berbagai genre,
ragam, dan bahan lisan maupun tertulis yang menjamin keragaman yang seluas-luasnya dan
menghindari penggunaan bahasa yang sangat sempit seperti idiolek.

Kolokasi adalah kecenderungan suatu kata memilih kata-kata tertentu lainnya untuk
berdampingan dalam kalimat atau wacana yang lebih luas. Sedangkan Konkordasi adalah

12
program yang dapat mencari, menampilkan, menghitung jumlah atau frekwensi penggunaan
kata atau frasa, serta memilih kata/frasa berdasarkan kategori tertentu

Setelah memahami pengertian diatas, tahulah kita bahwa Linguistic Korpus tidak
dapat dipisahkan dalam penelitian dan pembelajaran Bahasa. Semoga materi ini dapat
menginspirasi kita semua untuk lebih dalam lagi memahami, mempelajari dan
menggunakannya dalam setiap pembelajaran Bahasa.

13
Daftar Pustaka

Andrew Mcenery, Tony; Wilson, (1996). Corpus Linguistics. Edinburgh University Press.
ISBN 978-0-7486-0482-1.
Dana Waskita, (2017). "Resensi Corpus Linguistics: Method, Theory And Practice"Vol 16 No
1.
Gena R Bennett,. (2010). Using Corpora In The Language Learning Classroom: Corpus
Linguistics For Teachers.
Nadja Nesselhauf. (2011). "Corpus Linguistics: A Practical Introduction. Anglistisches
Seminar."
Nur Hizbullah Dkk (2016) Linguistik Korpus Dalam Kajian Dan Pembelajaran Bahasa Arab
Di Indonesia, konferensi nasional bhasa arab (konasbara) No 2.
Priyono. (2016) Prospek Penggunaan Korpus untuk studi kebahasaan, Jurnal Ilmu Pendidikan,
Jilid 2 no 6.
Suherman. (2011) Pembelajaran Bahasa Asing.
Totok Suhardijanto, Dan Arawinda Dinakaramani (2018). "Korpus Beranotasi: Ke Arah
Pengembangan Korpus Bahasa-Bahasa Di Indonesia". Kongres Bahasa Indonesia
Wirza Yanti. (2011.) Aplikasi Software Concordance Program Dalam Pengajaran Dan
Penelitian Bahasa. Vol 7. No 2.

Winnie Cheng, Exploring corpus linguistics, london: 4 october 2011.

https://www.tempo.co/abc/266/menggunakan-corpus-untuk-menguasai-kosakata, diakses 3
Oktober 2022.

Kkbi Online, Https://Kbbi.Kata.Web.Id/Bahasa-Asing. Diakses 3 Oktober 2022.

Https://Surabaya.Tribunnews.Com/2012/11/16/Yuk-Memanfaatkan-Korpus. diakses 3 okt


2022.

Https://Surabaya.Tribunnews.Com/2012/11/16/Yuk-Memanfaatkan-Korpus diakses. 3 okt


2022.

14

Anda mungkin juga menyukai