Linguistik
Korpus
Dewi Puspita
Badan Pengembangan dan Pembinaan Bahasa
“
It is no exaggeration to say that corpora, and
the study of corpora, have revolutionised the
study of language, and of the applications of
language, over the last few decades.”
Hunston (2002: 1)
2
Ikhtisar
● Pengertian Linguistik Korpus
● Pengertian Korpus
● Jenis-jenis Korpus
● Korpus tersedia (existing corpus) dalam bahasa Inggris dan
bahasa Indonesia
● Perangkat korpus (corpus tools)
● Istilah dan fitur penting pada korpus
● Pengaplikasian Linguistik Korpus
● Praktik
3
Linguistik Korpus
• bukan merupakan cabang ilmu linguistik seperti semantik
atau sosiolinguistik, juga bukan teori tentang bahasa;
• metode untuk memperoleh dan menganalisis data bahasa;
• menggunakan kompilasi tuturan natural yang disebut dengan
korpus.
Korpus
A corpus is a collection of pieces of language text in electronic form, selected
according to external criteria to represent, as far as possible, a language or
language variety as a source of data for linguistic research. (Sinclair 2004)
5
● Potongan teks bahasa
● Dalam bentuk elektronik (terbaca oleh program komputer)
● Dipilih berdasar kriteria tertentu
● Mewakili bahasa atau ragam bahasa tertentu
● Digunakan untuk penelitian linguistik
6
Jenis-jenis Korpus
• lisan vs tulis
• Monolingual vs bi/multilingual
• paralel vs sebanding (terjemahan)
• umum vs khusus
• diakronis vs sinkronis
• polos vs beranotasi
7
Jenis-jenis Korpus
Korpus
Lisan Tulis
Monolingual Bi-/Multi-lingual
Jenis-jenis Korpus
Korpus Monolingual
sebanding paralel
Sinkronis Diakronis
(korpus dialek (msl. Modern English,
BrEn, USEn, Euro-English, dll.) Medieval English, dll.)
Korpus tersedia (B. Inggris)
● Korpus hasil kompilasi
● Korpus web
23
Fitur-fitur penting Korpus
● Konkordansi: daftar kemunculan dari kata yang
dicari dalam konteks.
● Konkordansi dapat disajikan dalam bentuk
kalimat atau bentuk KWIC (Key Word In
Context)
Ketika saya sudah dinyatakan LULUS dalam ospek, masa kuliah pun aktif. (viani.abatasa.co.id
, crawled on 01/02/2014)
Bab goreng cendawan, itu part saya. (deheartyku.blogspot.com, crawled on 07/05/2012)
Saya pernah memakai OpenSUSE dan menurut saya merupakan OS yang berat. (
pubs.science.itb.ac.id, crawled on 01/02/2014)
Vonis itu bagaikan disambar petir di siang bolong bagi kehidupan saya. (
www.obat-penyakit.net, crawled on 07/05/2012)
Savitri, saya mencatat beberapa materi diskusi,, tapi belum saya edit. (www.al-izhar-jkt.sch.id
, crawled on 01/02/2014)
Savitri, saya mencatat beberapa materi diskusi,, tapi belum saya edit. (www.al-izhar-jkt.sch.id
, crawled on 01/02/2014)
Kalo kata kamus temen saya, glamor. (fakhritaksendiri.multiply.com, crawled on 07/05/2012)
Ada lima pemain yang saya gantikan. (www.bolanews.com, crawled on 05/01/2013)
Seperti biasa saya melakukan trial n error yang memiliki resiko untuk merusak mainboard. (
rulebook-jica.ekon.go.id, crawled on 30/01/2014)
Kok punya saya hang ya saat instal. (www.forumsatelit.com, crawled on 07/05/2012)
25
26
Fitur-fitur penting Korpus
● Kolokasi: kata yang muncul di sekitar kata
lain.
● Kolokasi dalam korpus dapat berupa item
leksikal atau item gramatikal yang muncul
hingga 5 kata di sebelah kiri dan 5 kata di
sebelah kanan.
● Kolokasi dihitung berdasarkan
Fitur-fitur penting Korpus
● N-Gram/cluster: n-kata yang muncul
berurutan.
● Disebut juga dengan istilah bundel leksikal
(lexical bundles)
Fitur-fitur penting Korpus
● Daftar kata: daftar seluruh kata yang terdapat
dalam suatu korpus disertai dengan frekuensi
kemunculannya dalam korpus itu.
Pengaplikasian
Linguistik Korpus
30
Penyusunan
Pengajaran
kamus Terjemahan
bahasa
(Leksikografi)
Semantik
Analisis wacana …
historis
31
Contoh Analisis Linguistik berbasis Korpus
● Baker, P. et al. 2013. Sketching Muslims: A Corpus Driven Analysis
of Representations around the Word ‘Muslim’ in the British Press
1998 – 2009. Oxford: Oxford University Press.
● Kwary, D. A. dan Arum, K. W. A. 2011. ‘Lincoln’s vs. Obama’s
presidencies: A diachronic corpus based analysis of the adjectival
collocates of [man] and [woman] in the American English’. ReVEL
9 (17): 211–225.
Contoh Analisis Linguistik berbasis Korpus
● Yuliawati, S. 2014. Analisis Berbasis Korpus: Kolokasi Kata-kata
Bermakna “Perempuan” Dalam Media Sunda (Majalah Manglé,
2012 – 2013). Ranah. Vol 3, No 2 (2014)
● Puspita, D. (2016). Pemanfaatan Korpus dalam Analisis Makna
Kata Bersinonim mau, ingin, hendak, dan akan. Dalam Prosiding
Seminar Leksikografi Indonesia 2016. 31—40. Jakarta: Pusat
Pengembangan dan Pelindungan Bahasa.
Contoh Analisis Linguistik berbasis Korpus
● Puspita, D. (2014). Indonesia di Mata Orang Inggris: Sebuah Studi
Korpus. Dalam Rampak Serantau. Terbitan Mabbim Nomor 21
(2014). Hlm 158—176. Jakarta: Badan Pengembangan dan
Pembinaan Bahasa.
● Puspita, D. (2017). Penelusuran Etimologi Kosakata Bahasa
Indonesia dengan Pendekatan Korpus. Dalam Prosiding Seminar
Internasional Leksikologi Leksikografi. Depok: Fakultas Ilmu
Pengetahuan Budaya, Universitas Indonesia.
“
Korpus hanya menyediakan
data, peneliti tetap harus
menginterpretasikan data itu
sendiri.
35
Praktik 1
● Analisis kata bersinonim dekat: thin
dan slim; awful dan dreadful; terrible
dan horrible dalam korpus BNC
● Analisis dilakukan melalui
pengecekan frekuensi, konkordansi,
dan kolokasi
36
Registrasi English Corpora
Langkah-selanjutnya
dipraktikkan bersama secara
langsung.
● Analisis kata bersinonim dekat: kuping dan
telinga; gempar dan heboh dalam korpus
MCP dan Leipzig Corpora
● Analisis dilakukan melalui pengecekan
Praktik 2 Place your screenshot here
frekuensi, konkordansi, dan kolokasi
41
Terima kasih
42