Anda di halaman 1dari 42

Pelatihan

Linguistik
Korpus
Dewi Puspita
Badan Pengembangan dan Pembinaan Bahasa

It is no exaggeration to say that corpora, and
the study of corpora, have revolutionised the
study of language, and of the applications of
language, over the last few decades.”
Hunston (2002: 1)

2
Ikhtisar
● Pengertian Linguistik Korpus
● Pengertian Korpus
● Jenis-jenis Korpus
● Korpus tersedia (existing corpus) dalam bahasa Inggris dan
bahasa Indonesia
● Perangkat korpus (corpus tools)
● Istilah dan fitur penting pada korpus
● Pengaplikasian Linguistik Korpus
● Praktik
3
Linguistik Korpus
• bukan merupakan cabang ilmu linguistik seperti semantik
atau sosiolinguistik, juga bukan teori tentang bahasa;
• metode untuk memperoleh dan menganalisis data bahasa;
• menggunakan kompilasi tuturan natural yang disebut dengan
korpus.
Korpus
A corpus is a collection of pieces of language text in electronic form, selected
according to external criteria to represent, as far as possible, a language or
language variety as a source of data for linguistic research. (Sinclair 2004)

Korpus adalah kumpulan potongan teks bahasa


dalam bentuk elektronik yang dipilih berdasarkan
kriteria tertentu sehingga dapat mewakili,
sejauh mungkin, suatu bahasa atau ragam bahasa
untuk dijadikan sumber data penelitian linguistik.

5
● Potongan teks bahasa
● Dalam bentuk elektronik (terbaca oleh program komputer)
● Dipilih berdasar kriteria tertentu
● Mewakili bahasa atau ragam bahasa tertentu
● Digunakan untuk penelitian linguistik

6
Jenis-jenis Korpus
• lisan vs tulis
• Monolingual vs bi/multilingual
• paralel vs sebanding (terjemahan)
• umum vs khusus
• diakronis vs sinkronis
• polos vs beranotasi

7
Jenis-jenis Korpus
Korpus

Lisan Tulis

Monolingual Bi-/Multi-lingual
Jenis-jenis Korpus
Korpus Monolingual

korpus umum korpus khusus

korpus hukum korpus kimia korpus ekonomi


korpus referensi
Jenis-jenis Korpus
korpus bilingual/multilingual

sebanding paralel

L1 L2 L3 L-N terjemahan L1-L2 terjemahan terjemahan


dua arah bebas
Jenis-jenis korpus
Korpus tulis

Sinkronis Diakronis
(korpus dialek (msl. Modern English,
BrEn, USEn, Euro-English, dll.) Medieval English, dll.)
Korpus tersedia (B. Inggris)
● Korpus hasil kompilasi
● Korpus web

● Korpus bahasa Inggris yang sudah ada


dapat dilihat di
https://www.english-corpora.org/
Leipzig Corpora Collection
Korpus tersedia (B. Indonesia)
● Korpus hasil kompilasi
○ Koin (Korpus Indonesia)
○ Korpus Universitas Indonesia
○ Malay Concordance Project
● Korpus web
○ Leipzig Corpora Collection
○ WebCorp
https://korpusindonesia.kemdikbud.go.id/index.php?r=site/home 17
https://korpus.ui.ac.id/ 18
http://mcp.anu.edu.au/Q/mcp.html
19
https://corpora.uni-leipzig.de/en?corpusId=ind_mixed_2013 20
http://www.webcorp.org.uk/live/ 21
Perangkat korpus
● AntConc https://www.laurenceanthony.net/software/antconc/
● WordSmith Tools https://www.lexically.net/wordsmith/
● Sketch Engine https://www.sketchengine.eu/
● LancsBox http://corpora.lancs.ac.uk/lancsbox/download.php
Istilah-istilah dalam Korpus
● Token: jumlah keseluruhan kata yang muncul dalam korpus
● Tipe: jumlah keseluruhan kata yang unik dalam korpus
● Node: kata yang dicari

23
Fitur-fitur penting Korpus
● Konkordansi: daftar kemunculan dari kata yang
dicari dalam konteks.
● Konkordansi dapat disajikan dalam bentuk
kalimat atau bentuk KWIC (Key Word In
Context)
Ketika saya sudah dinyatakan LULUS dalam ospek, masa kuliah pun aktif. (viani.abatasa.co.id
, crawled on 01/02/2014)
Bab goreng cendawan, itu part saya. (deheartyku.blogspot.com, crawled on 07/05/2012)
Saya pernah memakai OpenSUSE dan menurut saya merupakan OS yang berat. (
pubs.science.itb.ac.id, crawled on 01/02/2014)
Vonis itu bagaikan disambar petir di siang bolong bagi kehidupan saya. (
www.obat-penyakit.net, crawled on 07/05/2012)
Savitri, saya mencatat beberapa materi diskusi,, tapi belum saya edit. (www.al-izhar-jkt.sch.id
, crawled on 01/02/2014)
Savitri, saya mencatat beberapa materi diskusi,, tapi belum saya edit. (www.al-izhar-jkt.sch.id
, crawled on 01/02/2014)
Kalo kata kamus temen saya, glamor. (fakhritaksendiri.multiply.com, crawled on 07/05/2012)
Ada lima pemain yang saya gantikan. (www.bolanews.com, crawled on 05/01/2013)
Seperti biasa saya melakukan trial n error yang memiliki resiko untuk merusak mainboard. (
rulebook-jica.ekon.go.id, crawled on 30/01/2014)
Kok punya saya hang ya saat instal. (www.forumsatelit.com, crawled on 07/05/2012)

25
26
Fitur-fitur penting Korpus
● Kolokasi: kata yang muncul di sekitar kata
lain.
● Kolokasi dalam korpus dapat berupa item
leksikal atau item gramatikal yang muncul
hingga 5 kata di sebelah kiri dan 5 kata di
sebelah kanan.
● Kolokasi dihitung berdasarkan
Fitur-fitur penting Korpus
● N-Gram/cluster: n-kata yang muncul
berurutan.
● Disebut juga dengan istilah bundel leksikal
(lexical bundles)
Fitur-fitur penting Korpus
● Daftar kata: daftar seluruh kata yang terdapat
dalam suatu korpus disertai dengan frekuensi
kemunculannya dalam korpus itu.
Pengaplikasian
Linguistik Korpus

30
Penyusunan
Pengajaran
kamus Terjemahan
bahasa
(Leksikografi)

Linguistik Variasi bahasa


SLA
forensik (Sosiolinguistik)

Semantik
Analisis wacana …
historis

31
Contoh Analisis Linguistik berbasis Korpus
● Baker, P. et al. 2013. Sketching Muslims: A Corpus Driven Analysis
of Representations around the Word ‘Muslim’ in the British Press
1998 – 2009. Oxford: Oxford University Press.
● Kwary, D. A. dan Arum, K. W. A. 2011. ‘Lincoln’s vs. Obama’s
presidencies: A diachronic corpus based analysis of the adjectival
collocates of [man] and [woman] in the American English’. ReVEL
9 (17): 211–225.
Contoh Analisis Linguistik berbasis Korpus
● Yuliawati, S. 2014. Analisis Berbasis Korpus: Kolokasi Kata-kata
Bermakna “Perempuan” Dalam Media Sunda (Majalah Manglé,
2012 – 2013). Ranah. Vol 3, No 2 (2014)
● Puspita, D. (2016). Pemanfaatan Korpus dalam Analisis Makna
Kata Bersinonim mau, ingin, hendak, dan akan. Dalam Prosiding
Seminar Leksikografi Indonesia 2016. 31—40. Jakarta: Pusat
Pengembangan dan Pelindungan Bahasa.
Contoh Analisis Linguistik berbasis Korpus
● Puspita, D. (2014). Indonesia di Mata Orang Inggris: Sebuah Studi
Korpus. Dalam Rampak Serantau. Terbitan Mabbim Nomor 21
(2014). Hlm 158—176. Jakarta: Badan Pengembangan dan
Pembinaan Bahasa.
● Puspita, D. (2017). Penelusuran Etimologi Kosakata Bahasa
Indonesia dengan Pendekatan Korpus. Dalam Prosiding Seminar
Internasional Leksikologi Leksikografi. Depok: Fakultas Ilmu
Pengetahuan Budaya, Universitas Indonesia.

Korpus hanya menyediakan
data, peneliti tetap harus
menginterpretasikan data itu
sendiri.

35
Praktik 1
● Analisis kata bersinonim dekat: thin
dan slim; awful dan dreadful; terrible
dan horrible dalam korpus BNC
● Analisis dilakukan melalui
pengecekan frekuensi, konkordansi,
dan kolokasi

36
Registrasi English Corpora
Langkah-selanjutnya
dipraktikkan bersama secara
langsung.
● Analisis kata bersinonim dekat: kuping dan
telinga; gempar dan heboh dalam korpus
MCP dan Leipzig Corpora
● Analisis dilakukan melalui pengecekan
Praktik 2 Place your screenshot here
frekuensi, konkordansi, dan kolokasi

41
Terima kasih

42

Anda mungkin juga menyukai