Proceeding of Digital Humanities Symposium 2019

PROSIDING SIMPOSIUM KEMANUSIAAN DIGITAL 2019
PENYUNTING
MARLYNA MAROS
SAADIYAH DARUS
PRAMELA KRISH
JAMALUDDIN AZIZ
TAN KIM HUA
ANIS NADIAH CHE ABDUL RAHMAN
Kata Alu-aluan
YBhg. Prof. Dato Dr. Imran Ho Abdullah

Pengerusi Simposium Kemanusiaan Digital 2019
Assalamualaikum Warahmatullahi Wabarakatuh dan Selamat Sejahtera.
Sekalung tahniah dan syabas saya ucapkan kepada Jawatankuasa Penganjur “Simposium
Kemanusiaan Digital 2019” atas usaha untuk menjayakan simposium dan menerbitkan
prosiding ini.
Simposium dengan tema Penerokaan Kemanusiaan Digital ini telah memberi tumpuan
terhadap penyelidikan yang berkaitan dengan kemanusiaan digital dan data raya (big data)
dalam pelbagai bidang.
Penganjuran simposium pada kali ini adalah satu kesinambungan kepada Kolokium
Penerokaan Data Raya Kulturomik yang diadakan pada tahun 2017. Simposium pada kali ini
adalah untuk mengembangkan penyelidikan berkaitan Korpus Hansard Malaysia, Kulturomik
dan Kemanusiaan Digital. Diharapkan agar simposium seperti ini dapat diteruskan pada masa
hadapan.
Akhir kata, saya mengucapkan selamat membentang kepada para pembentang dan peserta.
Semoga simposium ini dapat menjadi satu wadah untuk perkongsian ilmu dan pengetahuan
akademik berkenaan bidang Kemanusiaan Digital di Malaysia.
Selamat maju jaya.
Prof. Dato Dr. Imran Ho Abdullah

Pengerusi “Simposium Kemanusiaan Digital 2019”
Timbalan Naib Canselor Hal-Ehwal Jaringan Industri & Masyarakat
Universiti Kebangsaan Malaysia
No TAJUK M/s
Kata Alu-aluan
YBhg. Prof. Dato Dr Imran Ho Abdullah
1 ICERD IN MALAYSIAN ONLINE NEWS REPORTS: A CROSS-LINGUISTIC 1
COMPARATIVE CORPUS ANALYSIS
Siti Aeisha Joharry & Nor Diyana Saupi
2 ANNOTATION TOOLS FOR AI ANALYSIS OF CORPUS DATA 7
Afendi Hamat & Anton Heryanto
3 PROSODI ‘WANITA’ DALAM PARLIMEN MALAYSIA: SATU ANALISIS 12
BERASASKAN KORPUS
Anis Nadiah Che Abdul Rahman, Imran Ho Abdullah & Intan Safinaz Zainudin
4 PEMBINAAN KORPUS WEB BAHASA MELAYU 18
Azhar bin Jaludin & Imran Ho bin Abdullah
5 COMPUTATIONAL THINKING FOR FUTURE DATA SCIENTISTS 24
(PEMIKIRAN KOMPUTASIONAL UNTUK BAKAL SAINTIS DATA)
Filzah Zahilah Binti Mohamed Zaki & Mohd Ridzwan Yaakub
6 TREND PENGGUNAAN LEKSIS ‘KUASA’ DALAM KORPUS HANSARD 30
PARLIMEN MALAYSIA: MENGAPA FREKUENSINYA DALAM
PARLIMEN 5 TERTINGGI?
Intan Safinaz Zainudin & Anis Nadiah Che Abdul Rahman
7 FROM HUMANITIES TO DIGITAL HUMANITIES: A CRITICAL 36
REFLECTION
Jamaluddin Aziz
8 A CORPUS DRIVEN ANALYSIS OF REPRESENTATIONS AROUND THE 41
WORD ‘EKONOMI’ (ECONOMY) IN MALAYSIAN HANSARD CORPUS
Nor Fariza Mohd Nor, Anis Nadiah Che Abdul Rahman, Azhar Jaludin , Imran Ho
Abdullah & Sabrina Tiun
9 VARIASI LEKSIKAL ‘IŽÃM’DALAM DATA DIGITAL TERJEMAHAN AL- 47
QUR’AN BAHASA MELAYU
Norwati Md Yusof, Zaharom Ridzwan & Saadiyah Darus
10 KEPENTINGAN ANALISA SENTIMEN DALAM PILIHAN RAYA PRESIDEN 52

AMERIKA SYARIKAT 2016
Mohd Ridzwan Yaakub & Liyana Safra Zaabar
11 PENDEKATAN WORD EMBEDDING DALAM KAJIAN SOSIO-BUDAYA 57

PADA KORPUS SOSIAL MEDIA MELAYU
Sabrina Tiun &Yeoh Zi Liang
12 INTERRUPTIONS IN THE MALAYSIAN PARLIAMENTARY DEBATES 63
Tan Kim Hua & Chen Wei Shan
Bandar Baru Bangi, Selangor, 16 Oktober 2019
ICERD IN MALAYSIAN ONLINE NEWS REPORTS: A CROSS-LINGUISTIC

COMPARATIVE CORPUS ANALYSIS
Siti Aeisha Joharry & Nor Diyana Saupi

Akademi Pengajian Bahasa, UiTM Shah Alam
aeisha@uitm.edu.my*
ABSTRACT
The International Convention for the Elimination of Racial Discrimination (ICERD) was a
controversial issue last year leading up to a public demonstration that took place on 8th
December 2018. Unlike the 179 countries that have ratified ICERD, Malaysia did not go
through with the treaty alongside countries like North Korea and Myanmar. This cross-
linguistic comparative study investigates the representation of ICERD in Malaysian news
reports of two online newspapers in Malaysia – the widely read English portal: The Star
Online, and its Malay equivalent: Berita Harian. A corpus-assisted discourse analysis was
conducted to examine how news on the key term ‘ICERD’ between 15 November 2018 and
15 December 2018 were reported in both English and Malay online newspapers. Initial
comparative analysis of both newspapers revealed that the search term co-occurs statistically
more frequently with the verb ‘ratify’ and its equivalent in Malay: ‘meratifikasi’. More
specifically, patterns indicate that ‘ICERD’ was mostly referring to the act of sanctioning the
agreement –mostly in relation to ‘not ratify’ or ‘tidak akan meratifikasi’, which is concurrent
with the timeframe of events leading up to the decision of not ratifying it. Interestingly,
differences can be found with regard to other salient patterns of the use of ICERD in Berita
Harian (e.g. the expression of ‘thanks’ or gratitude of not ratifying ICERD and the
mentioning of Minister in the Prime Minister's Department P. Waytha Moorthy) that are not
as revealing in The Star Online reports. It was also found that some inconsistencies were
reported between the two newspapers, for instance making reference to different ministers’
speech about the initial plan to ratify ICERD alongside five (reported in The Star Online)? or
six (reported in Berita Harian)? other treaties in the following year.
Keywords: ICERD, corpus analysis, Malaysian online news, rhetoric, cross-linguistic

comparative analysis
INTRODUCTION
During its inception to be ratified, the International Convention for the Elimination of Racial
Discrimination (ICERD) has seen various responses from Malaysian citizens. ICERD, in brief
is an international treaty by the United Nations calling for the end of racial discrimination,
criminalizing the spread of ideas based on racial supremacy, outlaw acts of violence or
inciting violence against persons of another colour or ethnic origin and promote
understanding among all races (Harris, 2008). Chronologically, the process began when the
Prime Minister of Malaysia, Tun Dr Mahathir Mohamed announced on considering ICERD
1
during the United Nation Annual Assembly in New York last October 2019. Since then, the
issue has been vastly reported by the media.
Throughout this heated discussion, it can be argued that media played a very important
role leading up to the controversial demonstration that took place on December 8th, 2018. In
an interdisciplinary study that investigated portrayals of ICERD in four (4) online English
newspapers, it was found that respondents who perceived ICERD news on these four media
outlets as reliable, were found to be less supportive of the treaty (Nuurrianti & Aeisha, 2019).
Mainly it was found that ICERD was negatively associated with undermining the Malay’s
heritage rights and that of Islam as the main religion of the country. This study however, only
looked at the representation of ICERD in English-based online newspapers and thus, requires
another observation from Malay-based online news. The present study investigates the
important role of media in reporting news to citizens as a significant medium of discourse in
two main languages (English and Malay), specifically regarding ICERD. Studies related to
media discourse and news reporting are nothing new. Issues that range from immigration,
refugees and political discourse in the news have been studied in the past (Zuraidah &
Charity, 2014; Salahshour, 2016; Bolte & Keong, 2014). These include other studies that have
investigated news values in the media (Potts et. al, 2015; Bednarek, 2016).
METHODOLOGY
This is a cross-linguistic comparative study that investigates the representation of ICERD in
two widely read Malaysian online news portals: The Star Online, and its Malay equivalent:
Berita Harian. A corpus-assisted discourse analysis was conducted to examine how news
portrayed ‘ICERD’ during the midst of ICERD ratification (between 15 November 2018 and
15 December 2018) in both English and Malay online newspapers. The corpora which totaled
to 390 articles, contain approximately 80,000 and 60,000 words respectively. Using corpus
techniques, separate word lists are firstly generated using WordSmith tools 6.0 (Scott, 2012),
followed by a collocational analysis that was based on t-score values. Then, a sample of
concordance lines are further investigated for how ICERD is described in the two separate
news portals.
FINDINGS AND DISCUSSION

Initial comparative analysis of both newspapers revealed that the search term (ICERD) co-
occurs statistically more frequently with the verb ratify (7.74) and its equivalent in Malay:
2
meratifikasi (8.24). This can be seen in Table 1 where the collocates both ranked number
seven after words that refer to the full term for ICERD. Other similar collocates shared in
both corpora include the negated not/tidak/bukan, nouns related to the topic such as issue/isu;
government/kerajaan; decision/keputusan, performative verbs like against/(mem)bantah;
said/berkata, modal verbs would/will/akan, and the passive form by/oleh. It can also be seen
that some significant Malay collocates were not shared in the English corpus, namely
words/dates related to the rally (perhimpunan/himpunan, Sabtu, 8), reference to the Federal
Constitution (Perlembagaan), the act of defending (mempertahankan), words related to
people (kita, rakyat) and modal verb ‘mahu’.
Table 1: Top 50 collocates of ICERD in each corpus
No Word Relation Texts Word Relation Texts
1 Discrimination 10.32 110 Diskriminasi 13.75 195
2 Racial 10.26 110 ICERD 13.49 201
3 of 9.76 123 Kaum 13.38 189
4 Forms 9.58 94 Penghapusan 13.01 174
5 All 9.40 93 Bentuk 13.00 174
6 ICERD 9.10 92 Segala 12.85 170
7 ratify 7.74 63 meratifikasi 8.24 73
8 to 7.62 92 tidak 7.98 80
9 Icerd 6.93 57 Oleh 7.63 66
10 not 6.87 57 di 7.35 75
11 the 6.29 108 kerajaan 7.18 64
12 on 6.21 53 ini 6.97 69
13 that 5.85 49 akan 6.73 57
14 is 5.80 46 ratifikasi 6.63 48
15 issue 5.76 35 untuk 6.44 52
16 would 5.62 36 dan 6.36 70
17 be 5.38 38 yang 6.12 64
18 said 5.28 41 isu 5.56 37
19 against 5.25 30 kerana 5.51 36
20 and 5.01 49 keputusan 5.46 33
21 in 4.84 39 pada 5.25 36
22 government 4.79 29 perhimpunan 5.17 37
23 ratification 4.78 24 berkata 5.07 37
24 by 4.71 30 terus 4.99 27
25 Nation 4.65 25 membantah 4.99 27
26 a 4.59 36 Perlembagaan 4.93 30
27 have 4.56 26 Mengenai 4.85 31
28 ratifying 4.29 19 bantah 4.80 24
29 it 4.28 28 mempertahankan 4.73 24
30 was 4.24 26 bukan 4.59 25
31 will 4.22 24 himpunan 4.58 25
32 with 4.19 23 Pembasmian 4.52 21
3
33 had 4.09 20 Sabtu 4.46 21

34 Nov 4.08 19 menolak 4.42 22
35 decision 4.04 18 ia 4.38 24
36 over 4.01 18 negara 4.38 30
37 Malaysia 4.01 20 kita 4.19 28
38 as 3.99 24 adalah 4.10 21
39 ratified 3.90 16 8 4.06 18
40 if 3.87 18 dengan 4.06 25
41 has 3.63 17 terhadap 4.06 19
42 Elimination 3.57 15 Antarabangsa 4.05 22
43 debate 3.55 13 sudah 4.03 20
44 but 3.40 15 Himpunan 4.00 20
45 for 3.40 20 mahu 3.90 18
46 he 3.15 19 tolak 3.89 16
47 from 3.13 14 pihak 3.70 19
48 an 3.12 12 Malaysia 3.62 19
49 at 3.12 15 rakyat 3.58 18
50 are 3.10 15 Mohd 3.57 15
Closer inspection of the salient use of ‘ratify’ and ‘meratifikasi’ with ICERD indicates
patterns mostly referring to the act of sanctioning the agreement –mostly in relation to ‘not
ratify’ or ‘tidak akan meratifikasi’, which is concurrent with the time-frame of events leading
up to the decision of not ratifying it. However, concordance lines for phrases ‘ratify ICERD’
and ‘meratifikasi ICERD’ show that in Berita Harian, it makes more reference to the
upholding of the Federal Constitution (26 times) as opposed to only 7 times in The Star
Online, as can be seen in the figures below.
Figure 1: Concordance lines for ‘meratifikasi ICERD’ in Berita Harian
4
Figure 2: Concordance lines for ‘ratify ICERD’ in The Star Online

Arguably, Berita Harian reminds readers of the ‘Perlembagaan’ and what was entailed in the
social contract agreed upon by all ethnic leaders during the formation of the country. Other
occurrences of this phrase indicates that the ratification of ICERD is against royal
sovereignty, as well as the position of Islam and Malays specifically, regardless of political
backgrounds.
Interestingly, differences can also be found with regard to other salient patterns of the
use of ICERD in Berita Harian (e.g. the expression of ‘thanks’ or gratitude of not ratifying
ICERD and the mentioning of Minister in the Prime Minister's Department P. Waytha
Moorthy) that are not as revealing in The Star Online reports. It was also found that some
inconsistencies were reported between the two newspapers, for instance making reference to
different ministers’ speech about the initial plan to ratify ICERD alongside five (reported in
The Star Online)? or six (reported in Berita Harian)? other treaties in the following year.
CONCLUSIONS
This study has briefly examined how ICERD was described in two comparable but different
language newspapers during the month in which decisions were made on whether to ratify the
treaty. Findings reveal that while both newspapers associated ICERD with the notion of not
ratifying the treaty, Berita Harian varied from The Star Online by highlighting more on the
discontentment because of ICERD’s contradiction to the social contract in the Federal
Constitution compared to reports of displeasure over what was referred to as a form of
prejudice/bias by the constitutional laws. More importantly, examination of the concordance
lines and collocational analysis justify that the Malay newspaper made more mention of how
the government did not ratify ICERD and the intent to defend/uphold the constitution, which
was not as revealing in the English newspaper. Finally, this study demonstrates the use of
corpus-assisted discourse analysis approach, which has shown to be particularly useful in
showing cross-linguistic comparisons, between parallel corpora such as the ones used in the
present study.
5
REFERENCES
Bednarek, M. (2016). Voices and values in the news: News media talk, news values and
attribution. Discourse, Context and Media, 11: 27–37.
Bolte, S., & Keong, Y. C. (2014). The refugee swap deal in Malaysian online news reports:
Ideology and representation. GEMA Online Journal of Language Studies, 14(2): 93-
108.
Harris, H. (2008). Race across borders: The US and ICERD. Harv. Blackletter LJ, 24: 61.
Nuurrianti, J., & Aeisha, J. (2019). ICERD in Malaysian English Online News Reports:
Analysis of rhetoric and public opinion. 5th World Conference on Media and Mass
Communication. Kuala Lumpur, April, 2019.
Potts et. al, (2015). How can computer-based methods help researchers to investigate news
values in large datasets? A corpus linguistic study of the construction of
newsworthiness in the reporting on Hurricane Katrina. Discourse & Communication,
9(2): 149-172.
Salahshour, N. (2016). Liquid metaphors as positive evaluations: A corpus-assisted discourse
analysis of the representation of migrants in a daily New Zealand newspaper.
Discourse, Context and Media, 13: 73-81.
Scott, M. (2012). WordSmith Tools. (Version 6.0). [Computer Software]. Stroud: Lexical
Analysis Software. Available from http://lexically.net/wordsmith/downloads/
Zuraidah, M. D., & Charity, L. (2014). Representing immigrants as illegals, threats and
victims in Malaysia: Elite voices in the media. Discourse & Society, 25(6): 687-705.
6
ANNOTATION TOOLS FOR AI ANALYSIS OF CORPUS DATA
Afendi Hamat & Anton Heryanto
Pusat Literasi dan Transformasi Sosiobudaya, Universiti Kebangsaan Malaysia
Fakulti Teknologi dan Sains Maklumat, Universiti Kebangsaan Malaysia
fendi@ukm.edu.my*, anton.heryanto@gmail.com
ABSTRACT
Artificial Intelligence (AI) has been gaining ground in various fields for the past few years. Its
application into the field of Natural Language Processing also opens various possibilities based on the
four traditional approaches to NLP: distributional, frame-based, model-theoretical and interactive
learning. Often the efficient combination of the four is required for optimum analysis of a corpus; and
this is where AI can play a significant role. However, the problem of accessibility of technology
remains a stumbling block. Language researchers often do not have the tools or the technical know
how to apply AI in corpus analysis, especially for interactive learning. This paper describes a web-
based annotation tool that can be used by corpus researchers to prepare annotations for analysis at the
back end. Such a tool will simplify the process of interaction with technology as it allows language
researchers to focus on their expertise at a suitable technical level. As a bonus, the backend technology
and processing could be made independent and composed of any of the four approaches to NLP.
Keywords: NLP, artificial intelligence, corpus analysis.
INTRODUCTION
This paper describes the features and development of a prototype web-based annotation tool
for the purpose of Natural Language Processing (NLP). It will outline the problems that the tool tries
to address, the proposed features as well as the architecture of the entire system. There is a lot of
excitement about artificial intelligence (AI), machine learning (ML), and natural language processing
(NLP) especially with the emphasis given to IR4.0. Although many of these technologies have been
available for decades, new advancements in compute power along with new algorithmic developments
are making these technologies more attractive to early adopter companies and institutions. These
organizations are embracing advanced analytics technologies for several reasons including improving
operational efficiencies, better understanding behaviors, and gaining competitive advantage. For the
7
field of NLP itself, the biggest stumbling block seems to be bringing the 'expertise' to the technology.
Most linguists are not trained in data science; and most data science tools are beyond the comfortable
usability required to make them widely accessible to linguists.
FEATURES
The creation of training data precedes any statistical approach to natural language processing
(NLP). Linguistic annotation is a process whereby linguistic information is added to a document, such
as part-of-speech, lemmata, named entities, or dependency relations. In the past, platforms for
linguistic annotations were mostly developed ad-hoc for the given annotation task at hand, used
proprietary formats for data exchange, or required local installation effort. The proposed system will
have the following features:
1. Web-based: Distributed work, no installation effort, increased availability (

Stenetorpet, 2012).
2. Quality and user management: Integrated different user roles support
(administrator, annotator, and curator), inter-annotator agreement
measurement, data curation, and progress monitoring.
3. Flexibility: Support of multiple annotation layers, pluggable import and export
formats, and extensibility to other front ends.
4. Pre-annotated and un-annotated documents: supporting new annotations, as
well as manual corrections of existing annotations.
The overall architecture of the system can be viewed in Figure 1. Further sections will discuss
the workflow as well as key features of the proposed system.
8
Figure 1: Conceptual System Architecture Showing User, Frontend, Backend and Data Levels
The following sections will discuss in brief the various features and workflow of the system.
A project is defined and managed by a project manager. The project management function will support
creating a project, loading un-annotated or pre-annotated documents in different formats, adding
annotator and curator users, defining tag sets, and configuring the annotation layers. Only a project
manager can administer a project.
The annotation function will be based on a heavily modified version of AnnotatorJS project.
Annotators only see projects they are assigned to. The annotation page presents the annotator different
options to setup the annotation environment, for customization:
• Paging and optimization: For heavily annotated documents or very large

documents, the original annotation component is not optimized, both for
displaying and annotating the document. We use a paging mechanism that
limits the number of sentences displayed at a time to make the performance
independent of the document size.
9
• Annotation layers: Annotators usually work on one or two annotations layers,

such as part-of-speech and dependency or named entity annotation.
Overloading the annotation page by displaying all annotation layers makes the
annotation and visualization process slower (Chen and Styler, 2013). The
proposed system will provide an option to configure visible/editable annotation
layers.
• Immediate persistence: Every annotation is sent to the backend immediately
and persisted there. An explicit interaction by the user to save changes is not
required.
The system will implement a simple workflow to track the state of a project. Every annotator
works on a separate version of the document, which is set to the state in progress the first time a
document is opened by the annotator. The annotator can then mark it as complete at the end of
annotation at which point it is locked for further annotation and can be used for curation. Such a
document cannot be changed anymore by an annotator but can be used by a curator. A curator can
mark a document as ‘adjudicated’ i.e. it is considered ready for processing by the server and data
models.
The curation interface will allow the curator to open a document and compare annotations
made by the annotators that already marked the document as complete. The curator reconciles the
annotation with disagreements. The curator can either decide on one of the presented alternatives, or
freely re-annotate. The system will contain a complete discussion component to allow for free
exchange of ideas and discussion between annotators and curators.
The system will also provide a monitoring module for project managers to track the progress
of an annotation project. The project manager can check the progress and compute agreement with
Kappa and Tau measures. The progress is visualized using a matrix of annotators and documents
displaying which documents the annotators have marked as complete and which documents the
curator adjudicated. Related statistics and the progress of individual annotators can also be displayed
which will greatly assist in annotation tasks (Palmer, Gildea & Kingsbury, 2005).
The proposed backend for the system will run on NET Core environment under Linux. It will
communicate with the frontend using SignalIR and all persistent data will be stored in a combination
of REDIS and MariaDB databases. It will also feature limited versioning and backup to protect against
possible data loss.
10
CONCLUSION
The proposed system being developed will allow for a better workflow in the process of
linguistics annotation of corpus data. This will mean a cleaner feed for the various Machine Learning
(ML) and Natural Language Processing (NLP) data models. It will also help make it easier for
linguists to leverage more recent technology and data processes.
ACKNOWLEDGEMENT
The work described by this paper is sponsored by the KRA-2018-005 Grant, Universiti Kebangsaan
Malaysia.
REFERENCES
Stenetorp, P., Pyysalo, S. Topic, G., Ohta, T., Ananiadou, S. & Tsujii, J. (2012). brat:a Web-based
Tool for NLP-Assisted Text Annotation. In Proceedings of the Demonstrations at EACL-
2012, Avi-gnon, France.
Palmer, M., Gildea, D., & Kingsbury, P. (2005). The Proposition Bank: An annotated corpus of
semantic roles. Computational Linguistics, 31(1):71–105.
Chen, W., & Styler, W. (2013). Anafora: A web-based generalpurpose annotation tool. InProc. of the
NAACL HLT 2013 Demonstration Session, pages 14–19, Atlanta, GA, USA.
11
PROSODI ‘WANITA’ DALAM PARLIMEN MALAYSIA: SATU ANALISIS BERASASKAN

KORPUS
Anis Nadiah Che Abdul Rahman, Imran Ho Abdullah & Intan Safinaz Zainudin
Pusat Literasi dan Transformasi Sosiobudaya, Universiti Kebangsaan Malaysia
P87706@siswa.ukm.edu.my*, imranho@ukm.edu.my, intansz@ukm.edu.my
ABSTRAK
Secara amnya, wanita direpresentasikan sebagai seseorang yang halus dan mempunyai reputasi yang
baik. Di dalam wacana politik pula, isu berkenaan wanita mempunyai representasi yang tersendiri.
Perbincangan berkenaan wanita dan jumlah perwakilan wanita di dalam parlimen mempunyai peranan
yang penting dalam menentukan masa depan negara. Kajian ini menggunakan analisis prosodi
semantik berasaskan korpus terhadap laporan parlimen Malaysia untuk melihat representasi leksis
‘wanita’ dalam tempoh lima tahun iaitu 2013 – 2018 (Parlimen 13) dalam kalangan ahli parlimen
Malaysia, Untuk tujuan kajian, satu korpus kecil di dalam Korpus Hansard Malaysia (MHC) telah
digunakan. Dengan menggunakan perisian analisis WordSmith 7.0 dan tag kelas kata (POS tagger),
satu kolokasi yang mengandungi kandungan semantik telah diekstrak untuk melihat prosodi semantik
bagi leksis ‘wanita.’ Analisis prosodi semantik dibuat mengikut Partington (2004) berdasarkan
konteks yang positif, negatif dan neutral dalam menentukan pengkategorian prosodi. Corak kolokasi
‘wanita’ di dalam perdebatan Parlimen Malaysia menunjukkan bahawa perbahasan berkisarkan
‘wanita’ lebih banyak menjurus kepada representasi positif berbanding negatif. Kata nama seperti
‘pencinta’, ‘penglibatan,’ ‘pembangunan,’ ‘perjuangan’ ‘kepimpinan’ dan ‘ikon’ mempunyai prosodi
positif manakala terdapatnya prosodi negatif seperti ‘diskriminasi,’ ‘eksploitasi,’’keganasan,’ dan
‘penderaan.’ Representasi ‘wanita’ yang muncul di dalam perdebatan parlimen Malaysia menunjukkan
bahawa perbincangan untuk memperkasakan wanita lebih banyak dijalankan berbanding perbincangan
yang bersifat negatif.
Kata kunci: Wanita, Korpus Hansard Malaysia, Prosodi Semantik
PENGENALAN
12
‘Wanita’ didefinasikan sebagai orang perempuan yag bersifat lebih halus dari lelaki (Dewan
Bahasa dan Pustaka, 2005). Wanita-wanita di Malaysia terdiri daripada 15.66 juta penduduk dari
keseluruhan 32.4 juta penduduk di Malaysia. (Jabatan Perangkaan Malaysia, 2018). Dari segi
pendaftaran pengundi, wanita terdiri daripada 51 peratus ataupun 14,968,304 yang memainkan
peranan penting dalam senario politik Malaysia.
Dalam beberapa tahun kebelakangan ini, kajian yang berkisarkan tentang representasi wanita
banyak dijalankan oleh penyelidik yang mengkaji pelbagai aspek berkaitan wanita dari sudut yang
berbeza. Kajian-kajian lepas banyak menumpukan kepada representasi wanita di dalam media semata-
mata. Namun, kajian di dalam parlimen berkenaan isu-isu wanita tidak banyak dibincangkan
berbanding kepentingan perwakilan wanita di dalam parlimen. Di Malaysia, jumlah ahli
parlimen wanita juga semakin bertambah setiap tahun. Kini, representasi wanita di dalam sfera politik
kian berubah menjadi lebih baik. Dengan peningkatan perwakilan wanita di dalam politik, banyak
kajian yang telah dijalankan untuk membandingkan hubungan di antara jumlah perwakilan wanita
dengan halangan yang perlu mereka lalui di dalam sayembara politik. (Child, 2008)
Kajian ini akan melihat representasi wanita melalui perbincangan berkaitan ‘wanita’ yang
dibahaskan di dalam Parlimen Malaysia dengan menggunakan prosodi semantik.Partington (1998:68)
mengistilahkan prosodi semantik sebagai satu penyebaran warna konotasi yang melampaui batas kata
tunggal. Dalam erti kata lainnya, prosodi semantik boleh dijelaskan sebagai pemberian konotasi
kepada sesuatu perkataan. Selain itu, Louw, (1993) menyatakan bahawa prosodi semantik mempunyai
fungsi-fungsi penting untuk menyampaikan makna bagi sikap seseorang penutur atau penulis terhadap
sesuatu perkara.
Terdapat beberapa kajian yang telah dibuat berkenaan leksis-leksis berbeza. Kajian-kajian
tersebut dapat disimpulkan di dalam jadual 1.
Jadual 1. Imbasan kajian lalu prosodi semantik
Pengkaji Leksis Prosodi

Stubbs (1995) cause kurang digemari
Hajar (2005) perempuan, wanita positif dan digemari
Nelson (2006) global, send, people, package positif
Hardy & Colombini (2010) risk negatif, positif (minimum)
Hishamudin dan Norsimah (2012) setia positif
Siti Zuraidah & Hajar (2016) Islam positif
Li (2019) Preserve, conserve positif dan neutral
KORPUS KAJIAN
13
Kajian ini menggunakan Korpus Hansard Malaysia atau Malaysian Hansard Corpus (MHC) oleh
Imran, Anis Nadiah dan Azhar (2018). Korpus khusus wacana politik ini dibina daripada Laporan
Rasmi Parlimen Malaysia dari tahun 1959 (Parlimen 1) sehingga tahun 2018 (Parlimen 13). Secara
umumnya, korpus ini mempunyai 157 juta token (diukur dengan WordSmith 5) daripada 3,511 buah
Hansard Malaysia. Kajian ini menumpukan kepada sub-korpus lengkap terkini di dalam MHC iaitu
Parlimen 13 yang dibentuk daripada 334 hari persidangan parlimen.
Jadual 2: tahun bersidang bagi Parlimen 13
Parlimen Tahun
13 (Penggal 1-6) Jun 2013 – April 2018
Jadual 2: maklumat asas sub-korpus MHC (Parlimen 13), dikur dengan WordSmith 5
bilangan jenis nisbah jenis kata TTR standard Min ayat min
kata kata dengan bilangan (standardised panjang dalam
(tokens) berbeza kata (type/token TTR) perkataan perkataan
(types) ratio/TTR)
18517944 72415 0.403589 36.57039 5.545302 1329088 13.49912
Jadual 1 dan 2 menunjukkan tahun bersidang dan maklumat asas bagi sub korpus di dalam MHC iaitu
Parlimen 13. Parlimen 13 bermula pada Jun 2013 dan berakhir pada bulan April 2018. Parlimen 13
merupakan satu-satunya parlimen yang bersidang selama 6 penggal berbanding parlimen-parlimen lain
yang bersidang untuk tempoh 5 penggal sahaja.
PROSEDUR
Kajin ini berkisarkan kepada leksis ‘wanita’ di dalam sub-korpus MHC. Kajian ini dijalankan
mengikut tatacara berikut di dalam gambar rajah 1.
1. Kolokasi
2. Pengelasan kolokasi mengikut kumpulan kelas kata
3. Penentuan prosodi semantik
4. Analisis konkordans
Gambar Rajah 1: Prosedur analisis
Kolokasi
Analisis kolokasi bagi kajian ini telah dijana dengan WordSmith Tool versi 7 (Scott, 2016). Beberapa
parameter p telah disetkan untuk analisis kolokasi iatu Tetingkap (window) ±5 ke kiri dan kanan, Skor
Maklumat Sepunya (Mutual Information Score) >3.0, kekerapan >5 dan Penyisihan kolokasi 100.
Penyisihan 100 kolokasi teratas dibuat berdasarkan skor MI - satu ujian statistik yang digunakan untuk
mengukur kekuatan bagi satu perkataan kajian dengan kolokasinya. Kajian umum menggunakan skor
14
MI sebanyak 3.0 ke atas untuk pembuktian bahawa sesuatu leksis berkolokasi di antara satu sama lain.
(Mc Enery, Xiao dan Tono, 2006:56)
Pengkategorian Kumpulan Kelas Kata
Seterusnya, 100 senarai kolokasi teratas bagi leksis ‘wanita’ telah diklasifikasikan mengikut kumpulan
kelas kata. Analisis ini mengadaptasikan penyisihan oleh Baker, Gabrielatos dan McEnery (2013)
yang menyusun perkataan-perkataan yang berkolokasi dengan leksis ‘Muslim’ mengikut kumpulan
kelas kata, dan Siti Zubaidah dan Hajar (2016) yang mengkategorikan kolokasi kepada leksis ‘Islam’
mengikut kategori leksikal iaitu kata nama, kata kerja dan kata adjektif.
Pengelasan Prosodi Semantik
Bagi mengelaskan prosodi semantik, setiap kolokasi yang dominan telah dilihat secara intiusi dan
dipekukuhkan dengan pembuktian melalui analisis konkordans.
DAPATAN KAJIAN DAN PERBINCANGAN
Kajian menunjukkan bahawa leksis ‘wanita’ muncul dengan kekerapan sebanyak 6,797 kali di dalam
Parlimen 13. Gambaran berkenaan ‘wanita’ di dalam Parlimen 13 adalah jelas. Analisis konkordans
dari korpus parlimen menunjukkan bahawa ‘ekonomi’ banyak berkolokasi dengan kata nama, diikuti
oleh kata kerja dan sebilangan kecil adjektif. Taburan kolokasi mengikut kumpulan kelas kata dapat
dilihat di dalam Jadual 4.
Jadual 3: Taburan kolokasi ‘wanita’ mengikut kumpulan kelas kata
Kumpulan kelas kata Kekerapan

Kata nama 65
Kata kerja 27
Adjektif 3
Analisis konkordans bagi ‘wanita’ menunjukkan bahawa 6 daripada 65 kata nama mempunyai
prosodi negatif. 14 daripadanya merupakan prosodi positif dan 45 daripadanya membawa prosodi
15
neutral. Kata nama dan kata kerja yang dikelaskan mengikut intuisi adalah seperti di dalam Jadual 4
dan 5.
Jadual 4: Prosodi ‘wanita’ mengikut Kata Nama
No Negatif MI F Positif MI F Neutral MI F

1 Diskriminasi 8.95 77 Hamil 10.08 34 Tuala 10.92 20
2 Eksploitasi 7.86 10 Pencinta 9.55 10 Inkubator 9.79 17
3 Keganasan 7.06 100 Penyertaan 8.27 110 Pampers 9.47 10
4 Kanser 7.01 32 Penglibatan 8.06 134 Pembuat 9.29 55
5 Banduan 6.45 29 Kesaksamaan 7.99 12 Placement 9.23 12
Jadual 5: Prosodi ‘wanita’ mengikut Kata Kerja
No Negatif MI F Positif MI F Neutral MI F

1 Dirogol 9.031 12 Memperkasa 8.37 27 Mengandung 9.42 48
2 Menghina 6.102 14 Memartabatkan 8.29 36 Bersalin 8.43 39
3 Memperkasakan 5.30 130 Berkahwin 7.32 29
4 Membudayakan 8.09 14 Memakai 7.29 13
5 Menceburi 7.26 10 Bekerja 6.76 148
Beberapa contoh perbincangan berkenaan isu isu negatif berkaitan wanita adalah seperti berikut:
(1) Datuk Hajah Rohani binti Abdul Karim:.. Elok juga saya maklumkan di sini bagi
menghapuskan diskriminasi terhadap wanita. Ini kerana kadang-kadang perkara ini terjadi
tetapi kita tidak sedar, benda ini tidak diuar-uarkan begitu hebat. (10 Oktober 2013)
(2) Pn Hajah Zahilah Yusof:… Jadi sebab itulah sejauh mana kerajaan merangka strategi untuk
menangani isu ini begitu juga saya ingin penjelasan berkaitan dengan penyalahgunaan iaitu
eksploitasi wanita yang cukup menyentuh hati kami wanita yang berlaku dalam negara.
(3) Dato' Irmohizam bin Haji Ibrahim [Kuala Selangor]:… Saya hendak mengucapkan tahniah
atas inisiatif pihak kementerian atas program menangani keganasan terhadap wanita 2013
atas tema ‘Respek Wanita, Masyarakat Sejahtera'.
(4) (7 November 2013)
Beberapa contoh perbincangan berkenaan isu isu positif berkaitan wanita adalah seperti berikut:
(1) Dato' Sri Ahmad Shabery Cheek: Tuan Yang di-Pertua, terima kasih Yang Berhormat Sabak
Bernam yang ternyata merupakan pencinta wanita yang patut kita banggakan di sini, sama
dengan kita semua. Saya tidak boleh sebutkan berapa peratus, berapa peratus di sini tetapi bila
kita merangka kan Karnival MAHA 2018, antara perkara nya ialah untuk memaparkan
penceritaan mengenai wanita.
(2) Puan Alice Lau Kiong Yieng [Lanang]:… Saya memohon kerajaan untuk membina pusat
jagaan kanak-kanak terutama untuk ibu tunggal dan wanita yang ingin bekerja. Ini bukan
16
sahaja dapat meningkatkan penglibatan wanita dalam ekonomi, politik dan juga sosial. (4
Julai 2013)
(1) Puan Hajah Zuraida binti Kamaruddin [Ampang]: Agar ia menjadi ikon kepada wanita untuk
membudayakan wanita dalam negara ini. Ikon-ikon ini harus dimartabatkan untuk
memartabatkan wanita so, wanita akan berjaya, akan membawa gelombang wanita di negara
ini. (18 Julai 2013)
Walaupun sesuatu kolokasi itu mempunyai makna positif, namun, ianya tidak semestinya membawa
representasi positif dalam perbahasan parlimen.
(1) Datuk Bung Moktar bin Radin [Kinabatangan]: Yang Berhormat Seputeh, Yang Berhormat
Seputeh mahu tahu, saya ini pencinta wanita. [Ketawa]
KESIMPULAN
Kajian berasaskan korpus ini telah meneliti pembentukan prosodi semantik yang berkisarkan leksis
wanita di dalam Parlimen Malaysia. Analisis statistik telah mendedahkan tentang nilai-nilai yang
terbentuk daripada perbahasan berkisarkan ‘wanita’ di dalam Parlimen Malaysia. Walau
bagaimanapun, isu wanita dan isu-isu lain yang dibincangkan di dalam parlimen dapat dilihat dengan
lebih lanjut melalui pelbagai jenis analisis berbeza.
PERAKUAN
Kajian ini disokong oleh geran penyelidikan KRA-2018-005, Universiti Kebangsaan Malaysia.
SENARAI RUJUKAN
Imran, H.A, Anis Nadiah, C.A.R. & Azhar, J. (2018). The Malaysian Hansard Corpus.
Culturomics Workshop UKM. 27 April 2017. unpublished.
Louw, B. (2000). ‘Contextual prosodic theory: Bringing semantic prosodies to life’ in C.
Heffer, H. Sauntson, and G. Fox (eds): Words in Context: A Tribute to John Sinclair on his
Retirement, 58.
Mc Enery, T. & Hardie, A. (2012). Corpus Linguistics: Method, Theory and Practice.
Cambridge University Press.
Partington, A. (2004). "Utterly content in each other's company": Semantic prosody and
semantic preference. International Journal of Corpus Linguistics 9(1): 131–156,
https://doi.org/10.1075/ijcl.9.1.07par
17
Siti Zubaidah, M.H. & Hajar, A.R. (2016). Defying the Global: The Cultural Connotations of "Islam"
in Malaysia. Kemanusiaan. 23(2). 81-98
PEMBINAAN KORPUS WEB BAHASA MELAYU

Azhar bin Jaludin & Imran Ho bin Abdullah
Fakulti Sains Sosial & Kemanusiaan, UKM
azharj@ukm.edu.my*, imranho@ukm.edu.my
ABSTRAK
Korpus, satu koleksi sampel bahasa yang dihasilkan dalam konteks semulajadi dan tanpa
pengaruh eksperimen, memainkan peranan penting dalam menentukan kemandirian sesuatu
bahasa. Kemunculan World Wide Web (web), membolehkan korpus dibina secara automatik
dengan kos yang sangat rendah. Walaupun demikian, pada ketika ini masih belum terdapat
usaha memanfaatkan teks web ini untuk pembinaan korpus rujukan bahasa Melayu (dalam
konteks penggunaan di Malaysia). Objektif kajian ini adalah untuk membina prosedur telusur
yang diperlukan untuk mencari, mengekstraksi, mengumpul dan memurni teks bahasa Melayu
yang ditemui di laman web bagi membina sebuah korpus rujukan bahasa Melayu; dan
seterusnya menilai kualiti korpus yang dibina bagi memastikan korpus berkenaan sah dan
andal untuk digunakan dalam kajian linguistik. Prosedur telusur telah dibina berpandukan
kerangka konsep web sebagai gudang korpus. Penilaian kualiti dan kesahan korpus pula
dilakukan melalui perbandingan penilaian intrinsik dan ekstrinsik dengan korpus rujukan
DBP-UKM. Dalam kajian ini, prosedur telusur telah digunakan untuk mengektraksi teks
bahasa Melayu jenis mime html/text dari laman web lima buah universiti di Malaysia.
Prosedur telusuran ini telah berjaya dilaksanakan dan berhasil membina satu korpus bahasa
Melayu bersaiz 1 juta perkataan. Hasil perbandingan penilaian intrinsik dan ekstrinsik di
antara korpus kajian dan korpus DBP-UKM, didapati kedua-dua korpus memberikan hasil
yang setara, dengan itu kualiti korpus yang dibina juga setara. Kesimpulannya, prosedur yang
telah dibina dalam kajian ini terbukti berupaya membina korpus yang berkualiti dan andal
untuk kajian linguistik serta mampu menyumbang kepada pembinaan sebuah korpus rujukan
bahasa Melayu menggunakan teks dari web yang boleh dipertanggungjawabkan.
18
Kata kunci: pembinaan korpus, penilaian korpus, penilaian intrinsic, penilaian ekstrinsik,
enjin telusur
PENGENALAN
Korpus, satu koleksi sampel bahasa yang dihasilkan dalam konteks semulajadi dan tanpa
pengaruh eksperimen, adalah satu sumber yang berkeupayaan membantu perkembangan
banyak aspek sesuatu bahasa. Menurut Leech (2002) mana-mana bahasa moden yang
beraspirasi untuk meneruskan kemandirian nya dalam semua aspek kehidupan kontemporari
dan di masa depan perlu mempunyai korpus rujukan bahasanya sendiri. Kemunculan World
Wide Web (web), di mana data teks elektronik dalam jumlah yang amat banyak boleh
didapati, pula membolehkan korpus dibina secara automatik dengan kos yang sangat rendah.
Bahkan, telah ramai penyelidik menggunakan data web ini untuk membina korpus
rujukan bahasa masing-masing, seperti bahasa Inggeris, bahasa Itali, dan bahasa Jerman oleh
Baroni et al. (2009), bahasa Perancis oleh Kehoe dan Gee (2007) dan sebagainya. Pengkaji
telah menemukan beberapa usaha membangunkan korpus web bahasa Melayu oleh pengkaji-
pengkaji lepas seperti Lexical Computing (2018), dan Majlis dan Zabokrtsky (2012.
Walaupun demikian, analisis baris konkordan yang dijalankan oleh pengkaji, menunjukkan
bahawa teks web bahasa Melayu yang dimuatkan ke dalam korpus berkenaan tidak mewakili
bahasa Melayu seperti yang di gunakan di Malaysia. Dapatan ini juga disokong oleh laporan
kajian yang dijalankan oleh Nomoto et al. (2018).
Terdapat dua permasalahan yang memotivasikan kajian ini iaitu
1. Terdapat kelompangan dalam pembangunan korpus web bahasa Melayu yang

berketerwakilan bahasa Melayu yang digunakan di Malaysia.
2. Pemerihalan dan dokumentasi mengenai gerak kerja enjin telusur ini telah dibuat
secara umum sahaja. Keadaan ini membuatkan usaha untuk mengadaptasi dan
mengguna semula enjin telusur sedia ada ke dalam kajian tertentu menjadi sukar.
Tujuan utama kajian ini adalah untuk membangunkan prosedur yang berupaya membina
satu korpus rujukan bahasa Melayu dengan memanfaatkan sepenuhnya teks bahasa Melayu
yang terdapat di laman-laman web di Malaysia. Dua objektif utama kajian ini adalah
19
1. untuk membina prosedur telusur yang diperlukan untuk mencari, mengekstraksi,

mengumpul, dan memurnikan teks bahasa Melayu yang ditemui di laman web bagi
membina sebuah korpus bahasa Melayu.
2. untuk menilai kualiti korpus yang dibina bagi memastikan korpus berkenaan sah dari
segi teknikalnya dan andal untuk digunakan dalam kajian linguistik khususnya
linguistik Melayu. Kualiti korpus yang dibina akan turut (secara tidak langsung)
mencerminkan kualiti dan keupayaan enjin telusur dan prosedur yang telah
dibangunkan untuk membina korpus berkenaan.
METODOLOGI
Data yang diguna dalam kajian ini adalah teks bahasa Melayu dari jenis mime html/text
diekstraksi dari laman web lima buah universiti di Malaysia. Kajian ini mengadaptasi
kerangka konsep web sebagai gudang korpus, (web as corpus shop) (Bernardini et al. 2006)
dan pendekatan telusuran, lihat rajah 1, untuk memandu dan mencapai objektif pertama.
Objektif kedua iaitu penilaian kualiti dan kesahan korpus pula dicapai melalui perbandingan
hasil penilaian intrinsik dan ekstrinsik (Schäfer dan Bildhauer 2013) dengan korpus rujukan
DBP-UKM.
Rajah 1 Kerangka konsep web sebagai gudang korpus
20
Prosedur Kajian
Berpandukan kerangka konsep web sebagai gudang korpus, kaedah pembentukan telusur
bermula dengan menganalisis struktur web sebagai sebuah bow-tie dan struktur laman web
bagi mengenal pasti masalah dan kekangan yang akan dihadapi sewaktu proses pembinaan
korpus berjalan (Broder et al. 2000). Penyelesaian bagi setiap masalah itu kemudiannya
disusun ke dalam satu prosedur telusuran yang mengandungi tiga modul iaitu robot telusur,
ekstraksi dan pasca-pemprosesan. Modul robot telusur (ajspider.py) berfungsi untuk memuat
turun semua URL pada laman web yang dilawati; modul ekstraksi (ajscraper.py) pula memuat
turun dokumen yang dijumpai pada laman web berkenaan, dan akhir sekali modul pasca-
proses (ajPost-Process.py) mengenal pasti bahasa dan memurnikan teks web dengan
membuang hingar web. Proses telusuran ini kemudiannya dilaksanakan untuk membina satu
korpus web bahasa Melayu yang digelar korBMWeb.
Apabila korpus bahasa Melayu ini selesai dibina, ianya akan dinilai dari segi kualiti
dan keandalannya secara intrinsik dan ekstrinsik. Penilaian intrinsik (kuantitatif) bermaksud
membuat pemeriksaan (bukan linguistik) terhadap korpus yang baharu dibina untuk mengenal
pasti jika terdapat kelemahan yang ketara dalam urutan pemprosesan pembinaannya.
Sementara itu penilaian ekstrinsik (kualitatif) bermaksud menilainya dalam konteks
penggunaan atau aplikasi korpus tersebut untuk tugas kebahasaan tertentu dan ianya selalunya
melibatkan perbandingan dengan korpus (rujukan) lain. Walaupun demikian, hanya penilaian
intrinsik yang akan di perjelaskan dalam kertas ini. Jenis ujian intrinsik yang digunakan dalam
kajian ini adalah statistik umum; taburan panjang perkataan; taburan panjang ayat; dan
pematuhan terhadap hukum.
HASIL DAN RUMUSAN KAJIAN
Rajah 1 menunjukkan hanya sebanyak 7.11% atau 2145 dokumen web dari keseluruhan
dokumen web (30184) yang dikumpul oleh mekanisma ajspider.py yang berjaya melepasi
semua tahap pembinaan korBMWeb dan bersedia untuk dijadikan input kepada korBMWeb.
Jadual 1 Peratusan bilangan dokumen web (dalam bentuk URL) yang berjaya melepasi kesemua tahap pemprosesan dan
boleh dijadikan input kepada korBMWeb
Bil Web Institusi ajspider ajscraper ajPost- Nyah Peratus

Process duplikasi dokumen yang
seiras berjaya
dimurnikan
1 UTM 1322 860 345 307 23.22%
21
2 USM 7460 6821 693 534 7.16%
3 UPM 3008 2944 1241 171 5.68%
4 UKM 12460 7241 1086 952 7.64%
5 UiTM 5934 5875 1089 181 3.05%
KESELURUHAN 30184 23741 4454 2145 7.11%
Rajah 2 memaparkan perbandingan taburan panjang perkataan korpus DBP-UKM dengan

darjah kepencongan 1.78, dengan pola taburan panjang perkataan korBMWeb dengan darjah
kepencongan 1.84. Melalui pemeriksaan visual kedua-dua profil taburan perkataan bagi
korpus DBP-UKM dan korBMWeb, mempamerkan bentuk keseluruhan sepadan dan
mematuhi taburan kepencongan secara positif. Ukuran kepencongan untuk DBP-UKM adalah
1.78 sementara korBMWeb adalah 1.84. Nilai kepencongan ini menunjukkan kepencongan
positif yang sangat tinggi.
DBP-UKM korBMWeb
1,000,000 200,000
Kekerapan
Kekerapan
500,000 100,000
0 0
1 4 7 101316192225283134 1 5 9 13 17 21 25 29 33 37 41 45 49
Panjang Perkataan Panjang Perkataan
Rajah 2 Perbandingan taburan panjang perkataan antara korBMWeb dan korpus DBP-UKM
Prosedur telusuran yang telah dibina dalam kajian ini telah berjaya dilaksanakan dan
berhasil membina satu korpus bahasa Melayu bersaiz 1 juta perkataan. Hasil perbandingan
penilaian intrinsik dan ekstrinsik di antara korpus kajian dan korpus DBP-UKM, didapati
kedua-dua korpus memberikan hasil yang setara, dengan itu kualiti korpus yang dibina juga
setara. Kesimpulannya, prosedur yang telah dibina dalam kajian ini terbukti berupaya
membina korpus yang berkualiti dan andal untuk kajian linguistik serta mampu menyumbang
kepada pembinaan sebuah korpus rujukan bahasa Melayu menggunakan teks dari web yang
boleh dipertanggungjawabkan.
RUJUKAN
Leech, G. 2002. The Importance of Reference Corpora. Hizkuntza-corpusak. Oraina eta geroa
(2002-10-24/25). http://www.uzei.eus/wp-content/uploads/2017/06/06-Geoffrey-
LEECH.pdf [1 September 2018]
22
Baroni, M., Bernardini, S., Ferraresi, A., & Zanchetta, E. 2009. The WaCky Wide Web: A
Collection of Very Large Linguistically Processed Web-Crawled Corpora. Language
Resources and Evaluation 433: 209–226.
Kehoe, A. And Gee, M. 2007. New corpora from the web: making web text more “text-like.”
Dlm. Päivi Pahta, Irma Taavitsainen, Terttu Nevalainen, & Jukka Tyrkkö (pnyt.).
Towards Multimedia in Corpus Studies.
Nomoto, H., Akasegawa, S. dan Shiohara, A. 2018. Reclassification of the Leipzig Corpora
Collection for Malay and Indonesian. NUSA 65: 47–66.
http://repository.tufs.ac.jp/handle/10108/92899. [doi:https://doi.org/10.15026/92899]
[1 September 2018]
Lexical Computing. 2018. Lexical Computing. https://www.lexicalcomputing.com/lexical-

computing/ [1 September 2018]
Majlis, M. & Zabokrtsky, Z. 2012. Language Richness of the Web. Proceedings of the Eight
International Conference on Language Resources and Evaluation (LREC'12).
Bernardini, S., Baroni, M. and Evert, S. 2006. A WaCky introduction. Dlm. Baroni, M. and
Bernardini, S. (pnyt..) WaCky! Working Papers on the Web as Corpus, hlm 9 – 40.
Bologna: GEDIT Edizioni.
Schäfer, R., & Bildhauer, F. 2013. Web Corpus Construction. San Rafael: Morgan &
Claypool.
Broder, A., Kumar, R., Maghoul, F., Raghavan, P., Stata, R., Tomkins, A., & Wiener, J. L.
2000. Graph structure in the web. Proceedings of the 9th International World Wide
Web conference on Computer Networks: The International Journal of Computer and
Telecommunications Networking, hlm. 309–320. DOI: 10.1016/S1389-
1286(00)00083-9. 9
23
COMPUTATIONAL THINKING FOR FUTURE DATA SCIENTISTS (PEMIKIRAN

KOMPUTASIONAL UNTUK BAKAL SAINTIS DATA)
Filzah Zahilah Binti Mohamed Zaki1, Mohd Ridzwan Yaakub2,

1
Department of Science and Technical Education,
Faculty of Educational Studies, Universiti Putra Malaysia
gs52106@student.upm.edu.my
2
Center for Artificial Intelligence Technology (CAIT)
Faculty of Information Science and Technology
Universiti Kebangsaan Malaysia (UKM)
ridzwanyaakub@ukm.edu.my
ABSTRACT
We currently live in a data-driven society, where evolving digital technologies are dominating modern
lifestyle, either for work-related activities, enhancing one’s productivity or for leisure purposes. The
notion of producing more data scientists to cater for the current demand of industrial revolution 4.0
and instilling the right 21st century skillsets for our graduates has been a common buzzword,
nonetheless it requires concerted effort from all stakeholders. The changes are inevitable in many
different education systems, where more countries across the globe started to introduce computational
thinking (CT) as a significant element in their primary and secondary school level (K-12 education), as
well as in higher education institutions. Computational thinking is associated with systematic problem
solving, and commonly used in science, technology, engineering and mathematics (STEM) related
disciplines. The paper intends to advocate computational thinking as one of the key ingredients in
producing competent data scientists, for the advancement of our nation, and beyond. Another objective
is to highlight essential concepts of computational thinking which is linked to data science
fundamentals. Finally, the practical implication would be to inspire for more interdisciplinary
collaborations between education and computer science expertise either within, or between academia
and industry, as there are varied possibilities and huge potentials remain undiscovered within our
society.
Keywords: Computational thinking, data science, 21st century skills
24
INTRODUCTION
Nowadays, data is driving a lot of humans’ activity, and as we are connected continuously and
sometimes, unwittingly via manifold web of networks. In the current digital society which we live in,
it is becoming borderless and unlimited when it comes to communicating, connecting and sharing of
life events and interest through social media. During these days, the use of mobile applications to
perform daily chores such as communicating for formal or informal purposes, shopping, banking and
learning are considered as commonplace.
In many countries, data are highly influencing how decisions were made by stakeholders. There
were data behind nearly all industry in almost every field (medical, defence, agriculture, education,
and enterprises, just to name a few). This is also due to the fact there is increasing use of artificial
intelligence (AI) within more prospects. The possibilities are endless, from smart home concept, to
high-end manufacturing or industry, and in most organisations, where the concept of IoT (Internet of
Thing) or smart device use is no longer a new thing. This scenario has prompted the demand of more
so-called experts in technology-driven society, which includes data scientist.
There were increasing needs to deploy or manipulate data for getting more accurate decision, or
precision is becoming crucial. With the advances of AI, the use of machine learning, and deep learning
is getting more prevalence in solving this problem, hence CT skills, is a must, a must-have capability
within a data scientist, to succeed in the 21st century.
The spur, coupled with the affordance of more people in using this artificial intelligence
technology, would be critical to make people’s life easier and the ability to solve any problem, which
may become more complex every day. Hence the need for CT skills to be inculcated for future
graduates, and the drive to produce more data scientist is an urgency, to accommodate for the
knowledge-based economy expansion and to dwell in such digital lifestyle. Many developed and
emerging economic nations are already moving towards this direction by instilling CT into their K-12
curriculum. For example, countries such as England, France, Finland, United Kingdom, South Korea,
and Australia has made it compulsory for children to learn basic computing or computational thinking
through their revised curriculum (Rich, Jones, Yoshikawa, & Perkins, 2017; Swaid, 2015). In
Malaysia, the program started in 2017, after the announcement from the former prime minister, Dato
Seri Najib Tun Razak to implement CT within primary and secondary education in selected schools
(BERNAMA, 2016).
The demand for data scientist is on the rise, across the globe (Holak, 2019). According a report by
LinkedIn, a career and professional social network, there is a very high request for data scientist across
industries, yet there was shortage of supply in the United States (2018). Similar trend was also
reported by Indeed for Australian job market, where there was 58% increment in the job posting
25
requiring data scientist (Pikering, 2019). Previous study has indicated on the importance of computing
education towards data science program curriculum (Cassel et al., 2017). Henceforth, CT was thought
as the gist of computing education, as the systematic problem-solving tools in the current advance of
big data and IoT era.
METHODOLOGY
For the purpose of this publication, selected articles from academic databases such as Scopus, WoS,
ERIC, ACM and online resources, which includes career networking websites (such as LinkedIn,
Indeed and others) to gather industrial insights on data scientist profession and the prospects.
LITERATURE REVIEW
Computational thinking and data science: brief definition
From the literature, there were many versions available for CT definitions, and there were some
similarities for the common principle even though there is no standard definition. Since the
inception of CT idea by Jeannette Wing in 2006, numerous studies on various aspects of CT
education within various context were conducted. CT was defined as “the thought processes
involved in formulating problems and their solutions so that the solutions are represented in a form
that can effectively be carried out by an information-processing agent.”(Cuny, Snyder, & Wing,
2010). A computational thinker was described as someone who can apply CT core concepts
(decomposition, pattern recognition, abstraction, algorithm, evaluations and logic) and practice CT
via approaches such as tinkering, creating, debugging, persevering and collaborating with others
(Computing At School, 2014). CT skills were deemed as quintessential to thrive as agile problem
solver in the 21st century working culture.
These qualities are highly relatable to data science ability, plus other desired add-on abilities,
which may differ across organisations. This is vital to accommodate current digital convergence
lifestyle and with ubiquitous data-driven initiatives, and massive data processing capacity, or big
data presence. Nowadays, most decision- making process is based on analytical skills and strategic
ability in managing and presenting solutions using insightful and systematic manner, that match the
job scope of a data scientist.
As for data scientist, The National Science Foundation advisory committee defined it as
“…the computational aspects of carrying out a complete data analysis, including acquisition,
management, and analysis of data” (Johnstone & Roberts, 2014). According to Hugh Conway
(2010), the data science discipline is made of three core which includes math and statistics, subject
or substantive expertise (knowledge about the domain to abstract and calculate), and hacking skills.
This indicated that a data scientist needs to think algorithmically, and making abstraction, which is
among the core CT concepts. This is just an example of how computational thinking (CT) is a part
26
of the sought-after skills required in data scientist. Figure 1 below shows the three core concepts of
data science Venn diagram by Hugh Conway (2010):
Figure 1: Data Science Venn Diagram by Hugh Conway (2010)
In 2012, Harvard Business Review earlier predicted data scientist will be the ‘sexiest job’ for the
21st century, and foreseen that there will be strong demand, as more company are looking for this
special talent, which holds special capabilities in both technical and non-technical skills.
“More than anything, what data scientists do is make discoveries while swimming in data. It’s
their preferred method of navigating the world around them. At ease in the digital realm, they
are able to bring structure to large quantities of formless data and make analysis possible.
They identify rich data sources, join them with other, potentially incomplete data sources, and
clean the resulting set. In a competitive landscape where challenges keep changing and data
never stop flowing, data scientists help decision makers shift from ad hoc analysis to an
ongoing conversation with data.” (Davenport & Patil, 2012).
DISCUSSION: CONNECTION BETWEEN COMPUTATIONAL THINKING (CT) AND

DATA SCIENCE
There were various initiatives inculcating CT within K-12 education and higher education
institutions (HEI). However, in our community there seems to be less discussion between CT and
data science although the two concept is highly relatable and interconnected. In the United States,
MIT has started this initiative, in culminating CT for their open learning platform, which
acknowledge the CT for their data science program, as individuals who enrol for data science
program may come from diverse background, although some may have computer science
background.
In this paper, we discussed both concept of CT and data science. The overarching aim is to
ensure stakeholders acknowledge and able to relate the two ideas, as it is complementing each
other. CT is indeed a natural pre-requisite, fundamental skills for producing competent data
27
scientists. As well, due to the multidisciplinary nature of data science discipline, the disposition of
CT is crucial, although it may be seamless, to ensure the integration of any tacit scientific or
technical knowledge to solve any real-world data problem with a tactile and coherent manner.
Figure 2 below show the diagram on different discipline and steps in data science.
Figure 2: Data science is multidisciplinary (Tierney, 2016)
CONCLUSION
In summary, it is imperative that both computational thinking (CT) and analytical skills go hand in
hand for data scientists to succeed and performing well within their organisation. It is recommended
that strategic planning inculcating CT to produce more skilled data scientist within this program is
crucial to sustain growth in the long run. Any opportunity for on-going professional development and
initiatives to upgrade current knowledge of data scientist for better grasps in both technical and non-
technical skills using CT notion is going to be beneficial and would bring positive impact towards the
wider society and the organisation.
ACKNOWLEDGEMENT
The authors gratefully acknowledge the Regional Cluster for Research and Publication (RCRP) grant
scheme for supporting this research, through grant number RRCP-2016-002.
REFERENCES
BERNAMA. (2016, August 11). Pemikiran Komputasional, Sains Komputer Akan Diajar Di Sekolah
Tahun Depan. Utusan ONLINE.
Cassel, L. N., Posner, M., Dicheva, D., Goelman, D., Topi, H., & Dichev, C. (2017). Advancing data
science for students of all majors. Proceedings of the 2017 ACM SIGCSE Technical Symposium
on Computer Science Education, 722.
Computing At School, B. (2014). Computational thinking. Retrieved from The British Computer
Society website: https://www.barefootcomputing.org/concept-approaches/computational-
thinking-concepts-and-approaches
28
Conway, H. (2010). The Data Science Venn Diagram. Retrieved from Creative Commons website:
http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram.
Cuny, J., Snyder, L., & Wing, J. M. (2010). Demystifying computational thinking for non-computer
scientists. Retrieved from TheLink website: http://www.cs.cmu.edu/~
CompThink/resources/TheLinkWing. pdf
Davenport, T. H., & Patil, D. J. (2012). Data Scientist: The Sexiest Job of the 21st Century. Harvard
Business Review, 70–76.
Holak, B. (2019). Demand for data scientists is booming and will only increase. Retrieved from
TechTarget website: https://searchbusinessanalytics.techtarget.com/feature/Demand-for-data-
scientists-is-booming-and-will-increase
Pickering, C. (2019). Data Scientists are Hot Commodity in Australia. Retrieved from Indeed Hiring
Lab website: https://www.hiringlab.org/au/blog/2019/04/30/data-scientists-au/.
Rich, P. J., Jones, B. L., Yoshikawa, E., & Perkins, M. (2017). Computing and Engineering in
Elementary School : The Effect of Year- long Training on Elementary Teacher Self-efficacy and
Beliefs About Teaching Computing and Engineering. International Journal of Computer Science
Education in Schools, 1(1). https://doi.org/10.21585/ijcses.v1i1.6
Swaid, S. I. (2015). Bringing Computational Thinking to STEM Education. Procedia Manufacturing,

3(Ahfe), 3657–3662. https://doi.org/https://doi.org/10.1016/j.promfg.2015.07.761
Team, E. G. (2018). LinkedIn Workforce Report: United States: August 2018. Retrieved from
LinkedIn website: https://economicgraph.linkedin.com/resources/linkedin-workforce-report-
august-2018.
Tierney, B. (2016). Data Science is multidisciplinary. Retrieved from Oralytics website:

https://oralytics.com/2012/06/13/data-science-is-multidisciplinary/
29
TREND PENGGUNAAN LEKSIS ‘KUASA’ DALAM KORPUS HANSARD PARLIMEN

MALAYSIA: MENGAPA FREKUENSINYA DALAM PARLIMEN 5 TERTINGGI?
Intan Safinaz Zainudin & Anis Nadiah Che Abdul Rahman
Pusat Literasi dan Transformasi Sosiobudaya (CLaST), Universiti Kebangsaan Malaysia
intansz@ukm.edu.my and P87706@siswa.ukm.edu.my
ABSTRAK
Korpus Hansard Malaysia (KHM) mengandungi rakaman secara verbatim perbahasaan 13 sesi
parlimen ahli Dewan Rakyat dan Dewan Negara yang telah bersidang dari tahun 1959 ke 2018.
Menurut jadual n-gram yang dijana dari KHM, Parlimen 5 menunjukkan frekuensi relatif tertinggi
untuk penggunaan leksis ‘kuasa’ berbanding dengan sesi parlimen yang lain. Oleh itu, kajian ini
bertujuan untuk mengkaji mengapa penggunaan leksis ‘kuasa’ dalam korpus Hansard Parlimen 5
tertinggi frekuensinya berbanding parlimen yang lain. Dapatan trend leksis kuasa ‘kuasa’ Parlimen 5
juga akan dibandingkan dengan Parlimen 13 iaitu data KHM yang terkini. Metodologi kajian ini
mengaplikasikan penjanaan n-gram kulturomik dan analisis konkordans untuk mendapatkan kolokasi
leksis ‘kuasa’ dengan kolokat yang berkelas kata kerja. Kolokat kelas kata kerja dipilih dalam kajian
ini kerana kolokat kata kerja lebih cenderung menyediakan maklumat makna dan sintaktik
penggunaan leksis dalam korpus kajian. Dapatan kajian menunjukkan Parlimen 5 mempunyai satu
set kolakat yang berbeza dengan set kolokat untuk parlimen 13. Dapatan kajian juga menunjukkan
peralihan isu dalam Parlimen 5 iaitu dari ‘salah guna kuasa’ ke ‘merentikan kuasa’ dalam Parlimen 13.
Kata kunci: Konkordans, Kolokasi, Kolokat, N-Gram Kulturomik, Wacana Politik
PENGENALAN
Korpus yang digunakan sebagai data kajian ini ialah Malaysian Hansard Corpus (MHC) atau
Korpus Hansard Malaysia (KHM), sebuah korpus khusus wacana politik yang dibina daripada laporan
rasmi parlimen Malaysia dari Parlimen 1 (tahun 1959) hinggalah ke Parlimen 13 (tahun 2013).
Korpus bersaiz 157 juta token (jumlah perkataan) ini dibina daripada 3,511 buah laporan bertulis
Parlimen Malaysia. Korpus Hansard Malaysia ini merupakan satu contoh korpus khusus wacana
politik kerana ia merupakan rakaman secara verbatim perbahasaan 13 sesi parlimen yang melibatkan
30
ahli Dewan rakyat dan Dewan Negara yang bersidang dari tahun 1959 ke 2018. Leksis ‘kuasa’ dipilih
untuk dianalisis bersama kolokasi kata kerja yang mempunyai hubungan kolokasi yang kuat dengan
pengukuran Mutual Information atau MI.
PENYATAAN MASALAH
Korpus Hansard Malaysia ini mengandungi perbahasan ahli-ahlinya yang melibatkan perbincangan
dan perbahasan pelbagai topik dan isu yang melibatkan rakyat Malaysia khususnya. Trend
penggunaan bahasa dari Parlimen 1 sehingga Parlimen 13 boleh dikenal pasti dengan trend kulturomik
N-gram. Leksis ‘kuasa’ dipilih untuk dikaji dalam korpus ini kerana wacana politik ini merupakan
medan perbahasan ahli-ahlinya yang diberikan kuasa dan mandat oleh rakyat untuk membincangkan
isu dan permasalahan rakyat Malaysia. Leksis yang dipilih untuk kajian iaitu ‘kuasa’ seolah klise
dengan korpus parlimen iaitu wacana politik yang secara umumnya membincangkan pelbagai isu yang
melibatkan ‘kuasa’. Rajah 1 di bawah menunjukkan n-gram untuk penggunaan leksis ‘kuasa’ dari
Parlimen 1 sehingga Parlimen 13. Persoalannya mengapa penggunaan leksis ‘kuasa’ tinggi dalam
Parlimen 5?
Rajah 1: Janaan N-gram untuk leksis ‘kuasa’
METODOLOGI
Korpus yang digunakan sebagai data kajian ini adalah adalah Malaysian Hansard Corpus (MHC) atau
Korpus Hansard Malaysia yang dibina oleh Imran, Anis Nadiah dan Azhar (2017). Korpus ini
merupakan sebuah korpus khusus wacana politik yang dibina daripada laporan rasmi parlimen
Malaysia dari Parlimen 1 (tahun 1959) hinggalah ke Parlimen 13 (tahun 2013).
31
Prosedur Kajian
Kajian ini menumpukan kepada leksis ‘kuasa’ di dalam MHC. Terdapat 4 prosedur yang terlibat:
1. Janaan n-gram kulturomik (Michel et al, 2011) seperti yang ditunjukkan dalam Rajah 1 di atas
bertujuan untuk melihat kepada trend penggunana suatu leksis yang dipanggil Trend
Kulturomik. Analisis pertama melibatkan janaan trend daripada n-gram kulturomik.
Trend ini dijana dengan menggunakan kekerapan kata relatif (relative frequency) bagi leksis
‘kuasa’ daripada sub korpus parlimen. kekerapan kata relatif digunakan untuk membuat
perbandingan yang setara di antara korpus-korpus yang mempunyai saiz berbeza.
Perbandingan ini juga disebut sebagai proses normalisasi. Kekerapan kata relatif dapat dikira
dengan menggunakan formula berikut:
𝐽𝑢𝑚𝑙𝑎ℎ 𝑘𝑒𝑘𝑒𝑟𝑎𝑝𝑎𝑛 𝑘𝑎𝑡𝑎 𝑚𝑒𝑛𝑡𝑎ℎ

× 1000000
𝑗𝑢𝑚𝑙𝑎ℎ 𝑡𝑜𝑘𝑒𝑛 𝑘𝑜𝑟𝑝𝑢𝑠 𝑘𝑎𝑗𝑖𝑎𝑛
2. Analisis kolokasi telah dibuat menggunakan arahan Concordance dalam perisian WordSmith
Tool versi 7 (Scott, 2016). Kolokasi bagi leksis ‘kuasa’ telah dijana dengan ketetapan berikut:
Ketetapan Jumlah
Tetingkap (window) 5 ke kiri dan kanan
Mutual information (MI) score 5.0
kekerapan 5
Penyisihan kolokasi 100
Jadual 1: Ketetapan analisis kolokasi di WordSmith 7
Penyisihan 100 kolokasi teratas adalah dibuat berdasarkan MI Score. MI Score merupakan
satu ujian untuk mengukur kekuatan kolokasi dengan sesuatu perkataan kajian. Menurut Mc
Enery, Xiao dan Tono (2006:56), MI score yang mempunyai ukuran 5.0 dan ke atas boleh
diambil sebagai satu bukti bahawa 2 item berkolokasi di antara satu sama lain.
3. Pengelasan kolokasi mengikut kumpulan kelas kata kerja. Kolokasi 100 teratas bagi
leksis ‘kuasa’ telah disisihkan mengikut kumpulan kelas kata kerja.
4. Analisis konkordans dibuat untuk kata ‘kuasa’ untuk melihat kolokasi yang paling
kuat hubungannya dengan leksis ‘kuasa’ akan ditunjukkan perbincangannya ringkas di
bawah.
Kolokasi ‘Kuasa’ dalam Parlimen 5 mengikut kelas kata kerja
No Kolokasi MI
1 SALAHGUNA 9.66
32
2 MENYALAHGUNAKAN 9.37
3 DIBERI 6.37
4 DIBERIKAN 6.36
5 MEMPUNYAI 6.10
6 MENGGUNAKAN 5.89
7 MENENTUKAN 5.00
Jadual 2: Senarai kolokat untuk leksis ‘kuasa’
Kolokasi leksis ‘kuasa’ dengan ‘salahguna’ mempunyai skor MI 9.66 dan ini menunjukkan kekuatan
kolokasi tersebut. Kolokasi ‘kuasa’ dengan ‘menyalahgunakan’ kuasa pada skor MI 9.37 juga
menunjukkan kolaksi yang agak kuat perkaitannya. Ini menunjukkan Parlimen 5 mempunyai
kekerapan yang tinggi membincangkan penyalahgunaan kuasa oleh individu atau pihak tertentu.
Contoh ayat korpus yang mengandungi kolokasi ‘salahguna’ bersama leksis ‘kuasa’ dari Parlimen 5
ditunjukkan di bawah.
Parlimen 5
11 Dec 1979
Tuan Chan Teck Chan (Kota Melaka): Tuan Pengerusi, saya suka mengambil bahagian dalam perbahasan ini.
Pada prinsipnya DAP tidaklah menentang satu permohonan peruntukan tambahan sebanyak $1,085,000 diminta
bagi mempertingkatkan lagi kerja-kerja penerangan. Tetapi beberapa points perlu diperhatikan oleh Yang
Berhormat Setiausaha Parlimen yang mewakili Kementerian Penerangan iaitu berlakunya salahguna kuasa dan
juga abuse of power dalam beberapa kenyataan seperti dalam kenyataan Perkhidmatan Luar Sivik dan
Masyarakat.
Untuk kata kerja seterusnya yang berkolokasi dengan ‘kuasa’ seperti ‘diberi, diberikan, memberikan,’
kuasa dilihat seolah boleh berpindah tangan. Manakala kolokasi leksis ‘kuasa’ dengan ‘mempunyai,
menggunakan, menentukan,’ dengan skor MI 6.10, 5.89, 5.0 menunjukkan bahawa kuasa itu
mempunyai makna metafora iaitu tangan yang boleh mempuyai kuasa dan menggunanya sama ada
dengan baik atau sebaiknya. Contoh ayat korpus untuk ‘memberikan’ ditunjukkan di bawah.
MEMBERIKAN
18 Oktober 1978
yang saya percaya telah dikajil dan dibahas dengan mendalam oleh Dewan yang mulia ini, cadangan itu adalah
rasa saya satu perkara yang sangat anih. Sebagai-mana Ahli Yang Berhormat maklum, Dewan ini-Dewan Rakyat
termasuk Dewan Negara adalah badan yang teragung sekali dalam sistem parliamentary democracy kita yang
diberi kuasa penuh di bawah Perlembagaan bagi meluluskan undang-undang termasuk meminda Perlembagaan
bagi faedah negara dan rakyat.
Seterusnya perbandingan dibuat dengan trend penggunaan leksis ‘kuasa’ untuk Parlime 13.
Kolokasi ‘Kuasa’ dalam Parlimen 13 mengikut kelas kata kerja
No Kolokasi MI
33
1 MERENTIKAN 10.40
2 MEMUSATKAN 9.74
3 DIPERTURUNKAN 9.34
4 MENYALAHGUNAKAN 8.84
5 MENGHAKIS 8.73
Jadual 3: Senarai kolokat untuk leksis ‘kuasa’
Kolokasi leksis ‘kuasa’ dengan ‘merentikan’ mempunyai MI skor yang signifikan iaitu 10.40 diikuti
oleh ‘memusatkan’ dengan skor MI 9.74. Kolokasi ini menunjukkan ahli dalam Parlimen 13 ini
membincangkan kuasa dan cuba ‘mengawal’ kuasa tersebut. Berikut ialah ayat korpus contoh untuk
‘merentikan kuat kuasa’ yang paling tinggi menunjukkan kuasa Parlimen memgawal dan boleh
memberhentikan kuasa seterusnya ‘memusatkan kuasa’ juga menunjukkan parlimen 13 mengawal
memusatkan kuasa.
Parliament 13
MERENTIKAN
25 september 2013
Timbalan Yang di-Pertua [Datuk Ronald Kiandee]: Saya ingin membalas balik huraian yang dibuat oleh Yang
Berhormat Subang tadi. Perkara 67(2) memang diperuntukkan tiga hari sebelum perbahasan boleh dimulakan.
Walau bagaimanapun, seperti yang saya katakan bahawa pihak Parlimen telah mengambil kira dan memastikan
kita mematuhi peraturan seperti yang kita lakukan pada hari pertama dan juga kita rujuk pada Hansard bertarikh
23 September di muka surat 34. Satu usul telah pun dikemukakan oleh Parlimen, usul yang merentikan kuat
kuasa Peraturan 67(2) itu dan telah pun diluluskan di Dewan pada hari pertama.
3 Dec 2015
MEMUSATKAN
Dato' Dr. Mujahid bin Yusof Rawa [Parit Buntar]: Ya, itu poin yang daripada awal kita berhujah yang kita tidak
dengar lagi sebelah sana. Bahawa isunya ialah memusatkan kuasa kepada Perdana Menteri.
KESIMPULAN
Kajian ini menunjukkan analisis berdasarkan Korpus Hansard Malaysia boleh menunjukkan trend
penggunaan leksis ‘kuasa’ dalam korpus tersebut dan analisis kolokasi seterusnya boleh mengenal
pasti senarai kolakat yang mempunyai MI yang tinggi iaitu perkaitan yang tinggi antara kolokat dan
leksis ‘kuasa’ yang dikaji itu. Parlimen 5 banyak membahaskan ‘salah guna kuasa’ manakala
Parlimen 13 ‘merenti dan memusatkan kuasa’.
Kajian ini dibiayai oleh geran penyelidikan KRA-2018-005.
34
RUJUKAN
Imran, H.A, Anis Nadiah, C.A.R. & Azhar, J. (2017). The Malaysian Hansard Corpus. Culturomics
Workshop UKM. 27 April 2017. unpublished.
Jean-Baptiste Michel*, Yuan Kui Shen, Aviva Presser Aiden, Adrian Veres, Matthew K. Gray,
William Brockman, The Google Books Team, Joseph P. Pickett, Dale Hoiberg, Dan Clancy,
Peter Norvig, Jon Orwant, Steven Pinker, Martin A. Nowak, and Erez Lieberman
Aiden*. Quantitative Analysis of Culture Using Millions of Digitized
Books. Science (Published online ahead of print: 12/16/2010).
McEnery, T., Xiao, R. & Tono, Y. (2006). Corpus-based Language Studies: An Advanced Resource
Book. Routledge. New York
Scott, M., (2010), WordSmith Tools version 7, Stroud: Lexical Analysis Software.
35
FROM HUMANITIES TO DIGITAL HUMANITIES: A CRITICAL REFLECTION
Jamaluddin Aziz
Center For Media and Communication Research,
Faculty of Social Sciences and Humanities,
Universiti Kebangsaan Malaysia
jaywalk@ukm.edu.my
ABSTRACT
The aim of this paper is to provide a critical reflection of my own personal and professional journey as
a humanities scholar embarking on digital humanities enquiries. Traditional humanities scholars have
been known for their tendency to rely on their interpretations of texts such as literary and historical
texts, while applying seemingly specific questions to provide answers to universal enquiries.
Humanities’ continuous aim is to make meaning of the world we live in, interacting with the texts as a
way of not only making sense of the world but also understanding humans and their roles in this
world. With the advancement of technology, the traditional idea of a text is constantly changing,
marking the need for humanities scholars to adopt and adapt the tools available to make meanings out
of the text. I would argue that while there are benefits of using technology, my caveat will be that the
call for humanities scholars to address and consequently apply these tools can be seen as a way
science proper and social sciences attempt to “colonize” scholarships in humanities. Therefore, in this
paper, I ask, what can humanities scholar do to resist? Is resisting possible and to what effects? What
are the possible effects of resisting or accepting these changes? Using my own experiences, I will
share how humanities scholars can contribute to “humanizing” technology; by doing this, reinstating
the same basic questions that traditional humanities scholars have been using in their enquiries
Keywords: Humanities; Digital; Critical Reflection; Colonize; Universal.
INTRODUCTION
What we need is thinkology rather than technology.
36
(Bodil Jonsson, 2001, 96)
This paper is written not to lament the loss of humanity and by extension humanities scholarship.
These two is one, this one is two – I would say. Their relationship is inextricable, which essentially
means, forsaking one will simultaneously mean forsaking another. Again, this paper is not about the
demise of humanities as humanities do not die, it evolves – not different from the belief purported by
Darwinism. Human beings evolve, so naturally, human beliefs and values are also evolving. Often
marked by the changing of technology, new knowledge about human being produces an episteme – in
Foucauldian sense of the world. This episteme determines each cultural epoch, which directly informs
how we understand what it means to be human in different cultural shifts. Therefore, this paper
documents my story, my journey as a humanity scholar venturing into digital humanities; in other
words, the story of my purpose.
What triggers this paper? Admittedly, it comes from a very dark place within me – my fear of
technology itself. One may consider this my mea culpa, but let me take you to that specific place, that
specific moment, in the hope that you would be able to visualize that fear. It was the film The Matrix
(Wachowski & Wachowski, 1999) starring Keanu Reeves as Neo, possibly the biblical the ONE, who
journeys into cyberspace known as the matrix. The immersive filmic technique used to create
cyberspace or what is seen as cyberspace reminds me of the fear of being under the control of
technology, creating the sense of an ontological imbalance that characterizes the usurpation of
humanities by technology. I fear my complex biological make up will be reduced into binary system
of 101010, consigning my subjectivity – my consciousness and agency – into measurable, readable
and predictable entity.
In addition to my refusal to be reduced to the binary numbers of 0101, narratives of ontological

uncertainties employed by cyberpunk stories also fueled my fear of the loss of humanities. These
narratives also function as the harbinger of human eventuality, i.e., the fate of being dissolved by its
own robo-genetic creation. Ambivalence is the inevitable result of such intersection between
technology and the corporeal self. There is no denying that the result does not necessarily cause
disequilibrium, as proven by how technology helps to enhance human capability; however, just like
how the sentient supercomputer called H.A.L 9000 in Stanley Kubrik 2001: A Space Odyssey (1968)
eventually takes control of the spaceship and repudiate the crew, technology that tries to genetically
alter human condition will eventually determine the de-constitution of the human self. Therefore, due
to my earlier encounter with humanities in digital form, my fear, I would concur is deep-seated.
The aim of this paper is to provide a critical reflection of my own personal and professional journey as
a humanities scholar embarking on digital humanities enquiries. Traditional humanities scholars have
been known for their tendency to rely on their interpretations of texts such as literary and historical
37
texts, while applying seemingly specific questions to provide answers to universal enquiries.
Humanities’ continuous aim is to make meaning of the world we live in, interacting with the texts as a
way of not only making sense of the world but also understanding humans and their roles in this
world. With the advancement of technology, the traditional idea of a text is constantly changing,
marking the need for humanities scholars to adopt and adapt the tools available to make meanings out
of the text. I would argue that while there are benefits of using technology, my caveat will be that the
call for humanities scholars to address and consequently apply these tools can be seen as a way
science proper and social sciences attempt to “colonize” scholarships in humanities. Therefore, in this
paper, I ask, what can humanities scholar do to resist? Is resisting possible and to what effects? What
are the possible effects of resisting or accepting these changes? Using my own experiences, I will
share how humanities scholars can contribute to “humanizing” technology; by doing this, reinstating
the same basic questions that traditional humanities scholars have been using in their enquiries
With this in mind, what I aim to achieve via this critical reflection are:
1) To identify the shift from humanities to digital humanities;

2) To identify the challenges faced by humanities scholars in pursuing digital humanities route.
THE QUESTION OF STATUS
My status as a humanities scholar is admittedly self-claimed. But, I believe, there is nothing degrading
about making such a claim about oneself. My ontology is a trajectory to an understanding of my raison
d’etre. For me, there are two ways of understanding what humanities scholarships are or basically
what I do or try to do and achieve. One, the role of humanities scholar is to understand, to make sense
of the world. To rationalize human conditions, making meaning of this world to reflect on the idea of
being a human. “The concept of meaning”, Paul Letsch opines, […] has a close connection with the
concept of purpose and with the concept of value [original italics]” (2019, 187). Therefore, humanities
scholars rely on qualitative approach to capture both purpose and value; or in other words, we deal
with “lived experiences” (Traudt, 2005, 30). Of course this methodology is often criticized for its
subjective values. This idea resonates well with Maryam Jameelah’s argument:
No single aspect of a culture, including science and technology, can be regarded

objectively as ‘neutral’ but rather they are totally dependent upon the set of ideas and
values cherished by its members
(1983, 11)
It has to be stressed here that humanities scholars do not concern themselves with the validity of data
analysis, the way post-positivist quantitative scholars do, our concern is mostly in making our
interpretation of the world believable and trustworthy. Indeed, as proposed by Neuman (2014, 20),
38
“Acknowledge self and context” and “Adopt a perspective” are key in qualitative research Like my
narrative here, my concern here is not to validate my argument but to build a case that you can trust.
Well I hope you can trust me on that.
Apart from that, humanities scholars embrace ontological and epistemological enquiry, despite the
idea that our discipline is constantly painted with the inability (or perceived scholarly handicap) to
push the enquiry further than the “What makes us human?” and “What is life?” conundrum. I resist to
agree with such accusation about us as humanities scholar, arguing that epistemological hesitation is
inherent in any thinking process, therefore, it is a natural process of a fully thinking scholar. My
sentiment concerning about time in humanities echoes Berg and Seeber’s (2016, 54) contention of the
Slow Professor movement that:
Alongside privileging certain forms of knowledge above others,

corporatization [of university system] has engendered a race against time with
important consequences for the quality of our working lives and the quality of
our scholarship.
This, in research term, essentially means that the questions often asked by humanities scholars are
embryonic in nature and character, recognizing with caution the reality of an enquiry as a meta-
physical journey into the unknown. This unknown is not transient, as there lies, despite the changing
nature of human beings, the collectiveness that continuously construct and deconstruct its universality.
This hidden and unknown universality keeps a humanities scholar like me excited, eager to reveal the
philosophy of everything. For Humanities sans its soul is like a wedding without its honeymoon; no
moment to remember!
Conterminous with that is that another characteristic of humanities scholars is the expression of
consciousness in a way that can be perplexing to even myself. Often trapped in a miasma of idea,
humanities scholar’s algorithm is both centrifugal and centripetal. For that reason, our ideas if
expressed in written words, are the product ‘slow’ and unhurried contemplation. As a humanities
scholar, my job is therefore to learn to avoid, not to refuse. I may learn to avoid confining myself to a
certain discipline, as I believe the voice of and about humanities should be heard across discipline.
What is the point of all scientific experimentation if it is not to serve humanities? I would not,
however, refuse to challenge and be challenged by the new episteme that my fellow humanities
scholars help to nurture. This ultimately is about deriving a meaning to life, a pursuit that is almost
existentially.
Therefore, this leads to a new question: Will this existential journey of a humanities scholar be
expandable to the digital realm? Or as questioned by Roued-Cunlife: “Do the humanities by necessity
have a digital future?” (2016). Should humanities scholar jettison the “lived experience” enquiry, and
39
submit to the demand of the corporation as warned by sci-fi films I mentioned earlier? Is this a way
proper science and social sciences try to bulldoze this ever-challenging philosophical enquiry? These
questions are worth pondering upon my traverse into digital humanities.
CONCLUSION
This paper presents the critical reflection of my journey from a humanities scholar to digital
humanities. A lot of issues are still to be considered and reconsidered. The trustworthiness of
humanities enquiry, the demanding notion of time in the present corporate university culture, the
perpetual insistence of ontological uncertainties, and the epistemology reluctance that have
characterized traditional humanities scholarships are now facing new challenges. At the heart of these
all, nonetheless, is humanities concern for making sense of the world, aligning human beings to
meaning. Therefore, can the 1010 of me can be conscious of this tradition?
ACKNOWLEDGEMENT
This research is supported by research grant code KRA-2018-005, Universiti Kebangsaan Malaysia.
REFERENCES
Berg, Maggie and Seeber, K. Barbara. (2016). The Slow Professor: Challenging the Culture of Speed
in the Academy. University of Toronto Press: Toronto
Jameelah Maryam. (1983). Modern Technology and the Dehumanization of Man. Crescent Publishing
Company: New Delhi.
Jonsson, Bodil. (2001). Unwinding the Clock: Ten Thoughts on Our Relationship to Time. Trans, Tiina
Nunnally. Harcourt: San Diego.
Kubrick, S. (1968). 2001: A Space Odyssey. Metro-Goldwyn-Mayer: UK
Letsch, P. (2019). The Meaning of Life: The Major Philosophical Aspects of Hidden Behind a
Fundamental Question of Human Existence. Athens Journal of Humanities & Arts. Vol 6(3):
183-210
Roued-Cunlife, H. (2017). The Digital Future of Humanities through the lens of DIT Culture. DHQ:
Digital Humanities Quarterly. Vol. 10 (4)
40
Traudt, P.J. (2005). Media, Audience, Effects: An Introduction to the Study of Media Content and
Audience Analysis. Pearson Education Inc.: Boston.
Wachowski, L. and Wachowski, L. (1999). The Matrix. Warner Bros: USA
A CORPUS DRIVEN ANALYSIS OF REPRESENTATIONS AROUND THE WORD

‘EKONOMI’ (ECONOMY) IN MALAYSIAN HANSARD CORPUS
Nor Fariza Mohd Nor, Anis Nadiah Che Abdul Rahman, Azhar Jaludin & Imran Ho
Abdullah1
Sabrina Tiun2
1
Faculty of Social Sciences and Humanities, Universiti Kebangsaan Malaysia
2
Asian Language Processing Lab, CAIT, Faculty of Technology and Information Science,
UKM
fariza@ukm.edu.my*, P87706@siswa.ukm.edu.my, azharj@ukm.edu.my,
imranho@ukm.edu.my, sabrinatiun@ukm.edu.my
ABSTRACT
Politicians constantly talk about wealth, power and education, which is often justified on the
grounds that it will aid economic growth, which in turn will raise living standard. Thus, many
economic issues are seen through the eyes of political beliefs. This paper reports on a corpus-
driven analysis around the word ‘ekonomi' in the Malaysian Hansard Corpus. The objectives
are to analyse the trend concerning the word ‘ekonomi' and to find out representations around
the word ‘ekonomi'. The analysis showed that the word ‘ekonomi' was at its peak in
Parliament 6 and Parliament 9, but declined in Parliament 8. The analysis also involved
examining the collocational meaning of the word ‘ekonomi' and its collocates to determine
the categories in which the word ‘ekonomi' was referenced. Positive noun collocates such as
‘pertumbuhan' and ‘perkembangan' are mainly categorised into the government's policy,
government's plan and economic activities in the country. Whilst negative noun collocates
such as ‘kemerosotan' and ‘sekatan' are mostly categorised into economic situation in the
country and globally, and the government's action on economic sanction on western countries.
The paper concludes that the representations around the word ‘ekonomi' involved justifying
or legitimizing government's course of action such as government's policy in the country and
at the global level.
INTRODUCTION
41
Economy applies to everyone from individuals to entities such as corporations and

governments, hence, economy dominates society. The impetus for our decision to focus on
the word ekonomi (economy) was propelled by the fact that many economic issues are seen
through the eyes of political beliefs. The present study used political discourse as the source
data. Political speeches, Parliament Acts, political debates, to name but a few is vital to
“transforming political will and power into social governance” (Partington, 2012: 1). Political
actions are prepared, accompanied and controlled by language, thus, cementing language as
vital in the process of transforming political will and power into social governance.
This paper draws on a wider research project aiming at exploring linguistic items,
strategies and discourse analysis in the setting of an influential political discourse – that of
Malaysian parliament. The present study focused on the lexical ekonomi, guided by two
research objectives; (1) to analyse the trend with regard to lexical ekonomi and (2) to find out
representations around the word ‘ekonomi’. Data for analysis is drawn from Malaysian
Hansard Corpus (henceforth, MHC).
DATA: THE MALAYSIAN HANSARD CORPUS
The study utilized the Malaysian Hansard Corpus, which is a specialized corpus of
parliamentary data developed by Imran, Anis Nadiah and Azhar (2018). To date, the corpus
comprises of approximately 157 million words (measured with WordSmith 5.0) from 3,511
parliamentary proceedings obtained from the Official Portal of Parliament of Malaysia. All
the files in Portable Documents Format (PDF) obtained from the web were converted into
plain text files for corpus development. The parliamentary proceedings in the corpus are from
Parliament 1 (1959) until Parliament 13 (2018). Each of the files are stored according to the
following sub corpus shown in figure 1:
Parlimen (Parliament) Penggal (Session) Mesyuarat (Meeting)

Figure 1. The nature of MHC’s storage
CORPUS SIZE AND INFORMATION
42
Figure 2 shows the corpus size of the Malaysian Hansard Corpus according to parliament.
The Size of sub corpora in Malaysian Hansard Corpus

Parliament 13 18517944
22188820
14123916
15171864
9485250
8040934
9893721
0 5000000 10000000 15000000 20000000 25000000
Figure 2. The size (token of running words) of sub corpora (parliament) in Malaysian Hansard Corpus (Imran et al., 2018)
There is a gradual increase in the number of word token from Parliament 1 to Parliament 13.
The number of word token reached the highest point in Parliament 12 (22188820) while
Parliament 3 shows the lowest trend of word token (6264859). Wordsmith Version 5 was
employed to run the text analysis and to view the behaviour and pattern of texts. This study
utilizes WordList and Concord tools to see the trend across parliaments (list of words based
on frequency) and Concord to see the node word ‘ekonomi’ in context. Through concord tool,
the collocation and its relation with the node word is examined.
PROCEDURE
The analyses of this study consist of analysis of the trend (n-gram), part of speech tagging
(POS), collocational analysis and semantic prosody. The trend for the word ekonomi
(economy) over 60 years of parliamentary proceeding according to parliament, was done
based on the adapted Google N-gram viewer (Michel et al 2011). The trend was plotted based
on relative frequency of the Malay word ekonomi (economy) in each parliament based on the
Word list generated using WordSmith Tools 5.
COLLOCATIONAL ANALYSIS
The examination on distinctive trend on the n-gram made the researchers decided to focus on
the peak and decline points (Parliament 6, 8 and 9). A collocational analysis was conducted
using WordSmith Tool 5, while statistical analysis was done using Mutual Information (MI)
to quantify the strength of the collocation. The researchers set the parameters in Table 1 to
obtain the result from the collocates that occur with the node word ‘ekonomi.’
43
Table 1. the parameters set in the selection of the collocates

Item Parameter
Collocate <100
Frequency >5
MI Score > 3.0
PART OF SPEECH (POS) TAG
The list of 100 top collocates were the tagged according to Part of Speech using Malay POS
Tagger (http://malaynlp.com), which includes noun, adjective/ adverb and verb.
Subsequently, the automated tagging was inspected to determine the accuracy of each POS
tag. Inaccurate tags are manually corrected with the assistance of and reference to the Malay
Dictionary (Pusat Rujukan Persuratan Melayu, url http://prpm.dbp.gov.my/). Subsequently,
the collocate lists are categorised into grammatical items namely noun, verb and adjective
while the functional words (stop words) were removed.
SEMANTIC PROSODY
Having determined the word class, top 50 noun collocates were selected. The noun collocates
were then rated and grouped into positive, negative and neutral prosody based on the context.
According to Louw (2000: 58), the purpose of semantic prosody is to demonstrate the attitude
and appraisal of a speaker or a writer. In order to identify the prosody, the context of each
collocates were evaluated based on positive, negative and neutral prosodies (Xiao and
McEnery (2006).
Findings
Trend of 'ekonomi' according to parliaments

1500
1292.9549
1150.5364 1139.9962
1000 990.0937
898.9007
relative frequency
759.5639 758.9632
748.5301
682.1492
614.8539
500 507.1144
235.7051
120.4511
0
P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 P11 P12 P13
Parliament
Figure 3. Trend of the node word ‘ekonomi’ from Parliament 1 to 13 based on normalized frequencies
Figure 3 shows the trend of the node word ‘ekonomi’ from Parliament 1 to Parliament 13 in
the Malaysian Hansard Corpus. Based on the n-gram chart, there has been a gradual rise in the
use of the word ‘ekonomi’ (economy) from Parliament 1 to Parliament 6. It reached its peak
44
in parliament 6. However, the word ‘ekonomi’ (economy) in Parliament 7 and 8 dramatically

declined. Interestingly, the frequency of ‘ekonomi’ increased again in Parliament 9. Following
the rise, the trend gradually declined from Parliament 9 to 13. Based on the trend, Parliament
6, 8 and 9 have been selected for data analysis.
COLLOCATIONAL ANALYSIS AND SEMANTIC PROSODY
The list of the collocates were sorted according to lexical categories, as shown in table 2, from
parliament 6, 8 and 9. The rank of the colligate is based on MI score.
Table 2. Colligates of ‘ekonomi’ according to lexical category in P6, P8 and P9

lexical categories Parliament 6 Parliament 8 Parliament 9
Noun 72 42 46
verb 19 10 39
adjective 19 16 12
The lexical category which most commonly collocates with ‘ekonomi’ (economy) in
Parliament 6, Parliament 8 and parliament 9 is noun. The top noun colligate in Parliament 6
includes peminggiran (isolation), eksklusif (exclusive), mafia (mafia), kemerosotan
(downturn) and pertumbuhan (growth). For parliament 8, the noun colligate with high
frequency includes kadar (rate), negeri (state), bandar (city), Asia, program (programme),
sekatan (restrain), tenaga (power), asas (basic), pakar (expert) and hak (right). The top noun
colligate in Parliament 9 are agroklimatic (agroclimatic), kuncupan (diminishing), kegawatan
(downturn), kemelesetan (recession), corpse, euphoria, makro (macro), kemelut (crisis),
kelembapan (slowness) and overheating. A comparison of positive and negative semantic
prosody was conducted across parliament 6, 8 and 9. The analysis for positive prosody
revealed that similar collocate that co-occur with the word ekonomi (economy) were found in
parliament 6 and 9, which are pertumbuhan (growth), prospek (prospect), perancang
(planner) and kekukuhan (stability). When the corpus was analysed for negative prosody,
similar collocates which co-occur frequently with ekonomi (economy) are kemelesetan
(recession), kemerosotan (slump) and kelembapan (sluggish), were detected in parliament 6
and 9. Only one similar collocate which co-occur with ekonomi (economy) was found in
parliament 8 and 9, which is pemulihan (remedial).
Acknowledgement
This research is funded by grant KRA-2018-005, Universiti Kebangsaan Malaysia.
References
45
Imran, H.A, Anis Nadiah, C.A.R. & Azhar, J. (2018). The Malaysian Hansard Corpus.
Culturomics Workshop UKM. 27 April 2017. unpublished.
Louw, B. (2000). ‘Contextual prosodic theory: Bringing semantic prosodies to life’ in C.
Heffer, H. Sauntson, and G. Fox (eds): Words in Context: A Tribute to John Sinclair
on his Retirement, 58.
Mc Enery, T. & Hardie, A. (2012). Corpus Linguistics: Method, Theory and Practice.
Cambridge University Press.
Michel, J, Shen, Y.K., Aiden, A.P., Veres, A., Gray, M.K. & Pickett, J.P. et al. (2011).
Quantitative analysis of culture using millions of digitized books. Science 331(6014 ),
176-182.
Oakes, M. P. (1998). Statistics for Corpus Linguistics. Edinburgh: Edinburgh University
Press.
Partington, A. (2012). Corpus Analysis of Political Language. The Encyclopaedia of Applied
Linguistics. doi: 10.1002/9781405198431.wbeal0250
Pusat Rujukan Persuratan Melayu. (2019). Retrieved from http://prpm.dbp.gov.my/
Rohana, M. (2011). Malay NLP Tagger. Retrieved from http://malaynlp.com
Scott, M., (2008). WordSmith Tools version 5. Liverpool: Lexical Analysis Software.
Stubbs, M. (1996). Text and Corpus Linguistics. Oxford: Blackwell.
Xiao, R. & McEnery, T. (2006). Collocation, Semantic Prosody, and Near Synonymy: A
Cross-Linguistic Perspective. Applied Linguistics. 27(1), 103-129.
Vice, J. & Farrel, S. (2017). The History of Hansard. House of Lords Hansard and the House
of Lords Library.
46
VARIASI LEKSIKAL ‘IŽÃM’DALAM DATA DIGITAL TERJEMAHAN AL-QUR’AN

BAHASA MELAYU
Norwati Md Yusof, Zaharom Ridzwan & Saadiyah Darus

Fakulti Sains Sosial dan Kemanusiaan, Universiti Kebangsaan Malaysia
norwati@ukm.edu.my, zaharom@ukm.edu.my, adi@ukm.edu.my
ABSTRAK
Revolusi Industri 4.0 (4.0IR) menyedarkan banyak pihak tentang kedatangan era gelombang baru yang
serba pantas. Demikian juga satu daripada komponen RI 4.0 iaitu Data Raya yang pasti wajar
ditangani bersesuaian dengan kepantasan yang ditagih. Mengkaji leksikal dalam al-Qur’an yang telah
diterjemahkan ke dalam ratusan bahasa dengan menggunakan data digital bukan sekadar
membolehkan analisis data secara tuntas, tepat dan pantas, tetapi juga membawa perspektif berlainan
dalam kajian terjemahan al-Qur’an. Satu kajian telah dilakukan untuk melihat leksikal ižãm dalam al-
Qur’an yang diterjemahkan ke dalam bahasa Melayu. Kertas kerja ini membicarakan kajian awal
terhadap leksikal ižãm yang terdapat dalam terjemahan al-Qur’an bahasa Melayu oleh penerbit
Yayasan Restu dengan menggunakan kaedah dan bahan data digital. Objektif kajian ini ialah untuk
mengenal pasti bentuk variasi terjemahan leksikal iźãm dalam bahasa Melayu (tulang). Metodologi
kajian ini terdiri daripada pemilihan leksikal iźãm (tulang) dalam teks terjemahan al-Qur’an,
pencerakinan data, pengkategorian leksikal ‘tulang’ serta analisis data yang menggunakan kaedah
kajian perpustakaan dan mengguna pakai pendekatan kualitatif. Pendekatan kualitatif ini menjurus
kepada analisis leksikal iaitu membandingkan terjemahan dari senarai leksikal iźãm dalam data yang
dikaji. Hasil kajian mendapati bentuk-bentuk terjemahan leksikal ‘tulang’ dalam terjemahan al-Qur’an
adalah pelbagai variasinya dalam bahasa sasaran. Kesimpulannya dianalisis berdasarkan leksikal iźãm
yang diterjemahkan dari bahasa Arab untuk membuktikan terdapat variasi ‘tulang’ dan implikasinya
47
terhadap makna terjemahan. Kajian awal ini diharap menyediakan perspektif berbeza dalam melihat
kajian terjemahan al-Qur’an.
Kata kunci: al-Qur’an, Iźãm, Terjemahan Tulang, Digital, Data.
PENGENALAN
Kehadiran Revolusi Industri 4.0 (4.0IR) membawa haluan baru dalam percaturan ilmu
kemanusiaan yang menyedarkan banyak pihak tentang kedatangan era gelombang digital yang serba
pantas. Transformasi digital RI 4.0 yang meletakkan Data Raya (Big Data) seperti dalam gambar rajah
1 sebagai satu daripada komponen wajar ditangani bersesuaian dengan kepantasan yang ditagih.
Gambar Rajah 1: Revolusi Industri 4.0
Mengkaji al-Qur’an yang telah diterjemahkan ke dalam ratusan bahasa dengan menggunakan
data digital kini menjadi keutamaan kerana hal ini bukan sekadar membolehkan analisis data secara
tuntas, tepat dan pantas, tetapi juga membawa perspektif berlainan dalam kajian terjemahan al-Qur’an.
Menurut Muhammad Nur Lubis Abd Razak (2004), meskipun aktiviti penterjemahan al-
Qur’an di Malaysia telah berkembang sekian lama, namun masih tidak wujud panduan atau kaedah
yang berdisiplin dan diiktiraf dalam amali penterjemahan tersebut. Hal ini menyebabkan terdapat
beberapa permasalahan dalam sesetengah terjemahan al-Qur’an yang menimbulkan kekeliruan. Sejak
48
kebelakangan ini kaedah yang bersistematik dalam disiplin ini mulai diperkukuhkan melalui aplikasi
perkaedahan tertentu untuk memberi sumbangan terhadap terjemahan al-Quran kerana terjemahan
yang berkaitan dengan bahasa Arab mempunyai cabaran tersendiri terutamanya dari segi kosa kata dan
gaya penulisan (Al-Hamad dan Salman, 2013).
Kajian terhadap al-Qur’an dalam pelbagai aspek banyak dijalankan termasuk oleh Abdul-Raof
(2001) untuk menjelaskan masalah-masalah yang sering terjadi dalam bidang penterjemahan al-
Qur’an, Muhammad Arsyad Abdul Majid (2009) tentang surah al-Baqarah, Zaharom bin Ridzwan
(2015) yang memfokuskan kepada bentuk dan makna terjemahan kata kerja perintah dan Zaharom &
Norwati (2018) yang mengkaji kata kerja perintah dalam al-Qur’an.
OBJEKTIF KAJIAN
Kertas kerja ini membincangkan tentang kajian mempunyai 2 objektif:
1. untuk mengenal pasti bentuk variasi leksikal ‘ižãm’ (tulang)

2. mengenal pasti variasi terjemahannya dalam bahasa Melayu.
KORPUS KAJIAN
Kertas kerja ini menjurus kepada bentuk variasi leksikal ‘ižãm’ (tulang) dalam al-Qur’an dan
terjemahannya dalam bahasa Melayu terbitan Yayasan Restu dengan menggunakan keseluruhan ayat
dan surah dalam al-Qur’an sebagai data kajian. Hal ini kerana kajian ini bertujuan untuk melihat
leksikal tulang secara keseluruhan bagi memaparkan terjemahan makna bagi leksikal tulang dan
kerana bilangan yang sedikit dan peratusan yang rendah. Tetapi sangat signifikan dikaji.
PROSEDUR
Pengumpulan data iźãm adalah dengan menggunakan kaedah penganalisisan bentuk

terjemahan lleksikal iźãm. Proses kajian ialah melalui pelitian data, pemilihan data terjemahan dan
menganalisis terjemahan iźãm.
Penandaan kategori ayat bagi analisis data dilakukan dengan menandakan huruf ‘S’
sebagai akronim kepada ‘surah’ diikuti oleh nombor surah, dan huruf ‘A’ sebagai akronim kepada
‘ayat’ diikuti nombor ayat. Contohnya, (S002A259) merujuk kepada Surah nombor 002 (al-Baqarah)
dan ayat (259) dua ratus lima puluh sembilan.
49
Entri leksikal tulang dalam Kamus Dewan Edisi Ketiga (1998) digunakan untuk melihat
variasi leksikal ini dalam analisis kajian sebenar. Kamus Dewan memberikan definisi tulang antaranya
seperti dalam gambarajah 2 yang menunjukkan kepelbagaian pilihan makna leksikal ini.
Gambar Rajah 2: Antara definisi tulang dalam Kamus Dewan Edisi Ketiga (1998)
DAPATAN KAJIAN DAN PERBINCANGAN
Kajian ini mendapati bahawa terdapat terdapat 13 ayat dalam al-Qur’an terjemahan digital ke dalam
ْ ‫ع‬
bahasa Melayu oleh Penerbitan Yayasan Restu yang mempunyai leksikal iźãm (ٌ‫ظم‬ َ ). Melalui 13 ayat
yang mengandungi leksikal iźãm ini dapat dilihat beberapa variasi seperti dalam contoh-contoh
berikut.
Jadual 1: Terjemahan Tulang-tulang
Analisis leksikal dalam ayat dalam Jadual 1 di atas mendapati bahawa terjemahan yang
diberikan bagi leksikal iźãm dalam Surah al-Baqarah ayat 259 ialah kata jamak tulang-tulang
manakala dalam dua terjemahan berikut dalam Jadual 2 di bawah pula menunjukkan terjemahan bagi
50
leksikal iźãm dalam Surah al-Israq Ayat 49 dan 98 yang masing-masing memberikan padanan kata
ganda tulang-belulang dan kata tunggal tulang.
KESIMPULAN
Kajian berasaskan korpus ini telah meneliti dan mendapati bahawa terdapat bentuk-bentuk tertentu
dalam bahasa Melayu yang membawa makna yang berbeza untuk menandakan leksikal ižãm yang
diterjemahkan. Dalam contoh-contoh di atas, terjemahan dalam bahasa Melayu bagi leksikal ižãm
membawa makna kata tunggal, kata jamak dan kata ganda dalam bahasa Melayu mankala dalam
kamus terdapat padanan terjemahan lain bagi leksikal tulang seperti sulbi, belikat dan keting. Hal ini
membuktikan bahawa terjemahan leksikal iźãm wajar dilakukan dengan lebih terperinci dan untuk
kajian yang lebih tuntas dan pantas, kajian awal ini mencadangkan bahawa data digital digunakan
untuk perbandingan yang memastikan padanan tepat dapat diberikan untuk terjemahan al-Qur’an
Arab–Melayu.
PERAKUAN
Pembentangan dan penerbitan kertas kerja ini disokong oleh geran penyelidikan KRA-2018-005,
Universiti Kebangsaan Malaysia dan penulisan ini dikaji di bawah Geran GGPM-2018-038.
SENARAI RUJUKAN
Al-Hamad. M.Q., & Salman, A.M. (2013). The Translatability of Euphemism in the Holy
Quran. European Scientific Journal, 9(2).
51
Abdul-Raof, Husein. 2001. Qur’an Translation Discourse, Texture and Exergesis. United
Kingdom: Curzon Press.
Kamus Dewan. 1998. Edisi Ketiga. Kuala Lumpur: Dewan Bahasa dan Pustaka.
Muhammad Arsyad Abdul Majid. 2009. Terjemahan Arab-Melayu Dari Sudut Makna
Pengkhususan: Satu Analisis Pendepanan Dalam Surah al-Baqarah. Kuala Lumpur:
Universiti Malaya.
Muhammad Nur Lubis Abd Razak. 2004. Penterjemahan Makna al-Qur’an: Kajian ke Arah
Melahirkan Kaedah Penterjemahan Makna al-Qur’an. Universiti Malaya.
Zaharom Redzwan. 2015. Perintah Langsung dan Tak Langsung dalam al-Qur’an; Satu Analisis
Terjemahan. Tesis PhD Universiti Kebangsaan Malaysia.
Zaharom Redzwan & Norwati Md Yusof. 2018. Analisis terjemahan kata kerja perintah berpartikel
Penegas –lah dalam surah al-Baqarah. Jurnal Penterjemah Jilid XV Bil 1 Halaman 53-62.
KEPENTINGAN ANALISA SENTIMEN DALAM PILIHAN RAYA PRESIDEN

AMERIKA SYARIKAT 2016
Mohd Ridzwan Yaakub1 & Liyana Safra Zaabar2

1
Pusat Penyelidikan Kecerdasan Buatan dan Teknologi (CAIT), Fakulti Teknologi & Sains
Maklumat, Universiti Kebangsaan Malaysia, 2 Bahagian Pengurusan Maklumat Strategik
(Perdana Digital) Pejabat Perdana Menteri, Pusat Pentadbiran Kerajaan Persekutuan,
Putrajaya
ridzwanyaakub@ukm.edu.my, liyanasafrazaabar@gmail.com
ABSTRAK
Twitter telah menjadi salah satu platform sosial media utama yang digunakan di seluruh dunia
berdasarkan jumlah pengguna aktifnya dalam pelbagai bidang termasuk politik. Pengaruh Twitter
kepada masyarakat Amerika Syarikat adalah cukup besar sehingga mempengaruhi kemenangan
pilihan raya Donald Trump dalam kempen pilihan raya Presiden Amerika Syarikat 2016. Donald
Trump sendiri merupakan pengguna Twitter yang aktif dari sebelum,sepanjang, dan selepas kempen
pilihan raya ini. Pencabarnya, Hillary Clinton dari Parti Demokrat, merupakan pengguna aktif di
Twitter hanya dari awal hingga akhir kempen. Kajian ini menggunakan teknik terkini dalam bidang
Analisis Sentimen yang menjadi antara focus utama dalam 4th IR (Revolusi Perindustrian). Analisis
Sentimen bermaksud satu kajian yang dilakukan secara automatik oleh komputer bagi melihat persepsi
entiti tertentu terhadap sesuatu perkara sama ada ia adalah positif, negatif ataupun neutral. Penggunaan
data tak berstruktur dari twit menjadi sumber data utama pada kajian ini. Sumbangan kajian ini adalah
menghasilkan peta rangkaian yang memfokuskan sumber media, akaun dan hashtag berdasarkan
analisis sentimen twit kedua-dua calon sepanjang tempoh kempen berjalan. Kajian mendapati Donald
Trump lebih memainkan sentimen negatif dalam twitnya dan lebih banyak mempunyai hubungan
rangkaian dengan media konservatif seperti Fox News, CNN dan New York Times.
52
Kata Kunci: Analisis Sentimen, Pelombongan Pendapat, Twitter, Twit Politik, Siri Masa, Analisis
Rangkaian
PENGENALAN
Internet telah dinobatkan sebagai ‘raja semua kempen politik’ semasa kempen dan keputusan
pilihanraya Presiden Amerika Syarikat 2008 (Cain, 2008). Ia telah menjadi platform untuk
pembelajaran dalam talian, bertukar pendapat, dan berkongsi pendapat (Kharde & Sonawane, 2016).
Penggunaan media sosial kini mendapat banyak perhatian dari pelbagai personaliti dan entiti yang
berbeza seperti calon, parti politik, orang awam, dan berita korporat. Oleh itu, analisis senario politik
di rangkaian sosial adalah penting untuk calon, parti politik, atau orang ramai. Al-Saffar et al. (2018)
menegaskan keputusan dari analisis sentimen media sosial dapat membantu calon dan parti mereka
mengetahui kedudukan mereka dan orientasi sentimen umum.
Analisis sentimen adalah kategori pelombongan teks di mana teks yang dikumpulkan
dikelaskan berdasarkan kekutuban sentimen yang boleh menjadi positif, negatif atau neutral. Terdapat
pelbagai kaedah analisis sentimen antaranya model bahasa (Language Model), bahagian penandaan
ucapan (POS) dan orientasi semantik (Awwalu et al. 2019). Pertumbuhan pengguna Twitter sejak
pilihan raya Amaerika Syarikat yang terakhir telah menunjukkan bahawa ia mungkin menjadi alat
pengundian yang lebih tepat sejak pemilihan 2012 (Joyce & Deng 2017). Menurut laman sesawang
Statista.com (2017), jumlah pengguna bulanan aktif Twitter di seluruh dunia dari suku keempat 2012
hingga suku keempat 2016 meningkat daripada 185 juta kepada 328 juta. Jumlah teks yang banyak di
laman sesawang telah terbukti menjadi alat komunikasi antara manusia dan mesin serta interaksi
sesama manusia(Shaheen et al. 2014). Kajian terdahulu untuk menilai sentimen pengguna Twitter
telah mencadangkan bahawa Twitter boleh menjadi sumber yang berharga untuk mempelajari
sentimen politik dan ia menggambarkan landskap sebenar politik di luar talian (Cambria et al. 2017).
PENYATAAN MASALAH
Kaedah anotasi secara manual merupakan kaedah yang biasa digunakan dalam analisis sentimen.
Proses ini memakan masa yang lama dan kos yang tinggi menyebabkan kaedah ini adalah kurang
relevan untuk domain politik yang memerlukan analisis yang lebih cepat, kos yang kurang dan
ketersediaan data latihan (Hutto & Gilbert 2014). Masalah kedua yang dihadadapi dalam kajian ini
ialah jumlah teks dalam media sosial termasuk twitter yang sentiasa berkembang pesat dan mencipta
kandungan spesifik berdimensi besar (Fersini et al. 2014). Masalah ini berlaku kerana terdapatnya
istilah yang berulang dan tidak berkaitan dalam ruang ciri tersebut (Ahmad et al. 2016).
53
OBJEKTIF KAJIAN
Objektif utama kajian ini ialah membangunkan algoritma Analisa Sentimen (AS) yang menyelesaikan
masalah sebagaimana dinyatakan pada subtopik, Penyataan Masalah. Level AS yang digunakan bagi
kajian ini ialah level ayat (Sentence).
METODOLOGI KAJIAN
Rajah 1 Metodologi kajian
Pada Rajah 1, metodologi kajian ini dilaksanakan dalam 3 fasa utama iaitu Fasa Input, Fasa
Pembangunan Model dan Fasa Output. Fasa input melibatkan 3 tugasan iaitu mengenal pasti masalah,
menetapkan skop kajian dan objektif, dan kajian kesusasteraan. Pada fasa pembangunan model,
bermula dengan dapatan data twit diikuti dengan tugasan umum pra pemprosesan seperti perlabelan
dan pengekstran fitur. Kemudian diikuti dengan pengelasan sentimen dan penilaian sistem yang
dibangunkan. Fasa terakhir iaitu fasa output melibatkan tugasan seperti analisis dan interpretasi output.
HASIL KAJIAN DAN RUMUSAN
54
Rajah 2 menunjukkan penulis twit asal bagi kedua-dua belah pihak sama ada, kem Trump mahupun
kem Hillary. EricTrump dan TheBriefing2016 merupakan pentwit paling utama bagi kedua-dua belah
pihak.
Rajah 2 Penulis Asal Twit Semula
Rajah 3 Purata Retwit dan Polariti Sentimen Terhadap Trump
Rajah 3 menjelaskan jumlah purata twit dan polariti sentimen terhadap trump sepanjang pilihan raya
presiden Amerika Syarikat yang lepas. Berdasarkan rajah ini dapatlah disimpulkan bahawa purata
‘retweet’ dan ‘favorites’ mengikut sentimen di mana sentimen negatif adalah paling banyak
digemari. Bagi jumlah twit semula, sentimen negatif adalah paling tinggi menunjukkan
pengguna twitter lebih gemar mentwit semula sentimen negatif. AS berjaya membuktikan
bahawa penggunaan kecerdasan buatan dalam media social mampu untuk memperolehi
persepsi penggundi bagi sesuatu isu untuk sesuatu pilihan raya.
PERAKUAN
55
Kerja penyelidikan ini dibiayai oleh Kementerian Pelajaran Malaysia melalui projek
FRGS/1/2017/ICT02/UKM/02/4
RUJUKAN
Ahmad, S. R., Yaakub, M. R. & Bakar, A. A. (2016). Detecting Relationship between Features and
Sentiment Words using Hybrid of Typed Dependency Relations Layer and POS Tagging (TDR
Layer POS Tags) Algorithm. International Journal on Advanced Science, Engineering and
Information Technology, 6(6), 1120.
Al-Saffar, A., Awang, S., Tao, H., Omar, N., Al-Saiagh, W. & Al-bared, M. (2018). Malay sentiment
analysis based on combined classification approaches and Senti-lexicon algorithm. (E. Cambria,
Ed.)PLOS ONE, 13(4), e0194852.
Awwalu, J., Bakar, Bakar, A. A. & Yaakub, M. R. (2019). Hybrid N-gram model using Naïve Bayes
for classification of political sentiments on Twitter. Neural Computing and Applications, 1–14.
Cambria, E., Ebrahimi, M., Hossein Yazdavar, A. & Sheth, A. (2017). AFFECTIVE COMPUTING
AND SENTIMENT ANALYSIS Challenges of Sentiment Analysis for Dynamic Events. Retrieved
from www.computer.org/intelligent
Claire Cain, M. (2008). How Obama’s Internet Campaign Changed Politics - The New York Times.
Business, Innovation,Technology,Society. Retrieved June 6, 2019 from
https://bits.blogs.nytimes.com/2008/11/07/how-obamas-internet-campaign-changed-politics/
Fersini, E., Messina, E. & Pozzi, F. A. (2014). Sentiment analysis: Bayesian Ensemble Learning.
Decision Support Systems, 68, 26–38.
Kharde, V. & Sonawane, S. S. (2016). Sentiment Analysis of Twitter Data: A Survey of Techniques.
International Journal of Computer Applications, 139(11).
Hutto, C. J. & Gilbert, E. (2014). VADER: A Parsimonious Rule-Based Model for Sentiment Analysis
of Social Media Text. ICWSM. Retrieved October 9, 2019 from
https://www.semanticscholar.org/paper/VADER%3A-A-Parsimonious-Rule-Based-Model-for-
Analysis-Hutto-Gilbert/a6e4a2532510369b8f55c68f049ff11a892fefeb
Joyce, B. & Deng, J. (2017). Sentiment analysis of tweets for the 2016 US presidential election. 2017
IEEE MIT Undergraduate Research Technology Conference (URTC), 1–4. IEEE.
Shaheen, S., El-Hajj, W., Hajj, H. & Elbassuoni, S. (2014). Emotion Recognition from Text Based on
Automatically Generated Rules. 2014 IEEE International Conference on Data Mining
56
Workshop, 383–392. IEEE.
Statista.com. (2017). • Twitter: number of active users 2010-2018 | Statista. Retrieved June 6, 2019
from https://www.statista.com/statistics/282087/number-of-monthly-active-twitter-users/
PENDEKATAN WORD EMBEDDING DALAM KAJIAN SOSIO-BUDAYA PADA

KORPUS SOSIAL MEDIA MELAYU
Sabrina Tiun &Yeoh Zi Liang
Asian Language Processing, Center for Artificial Intelligence, Faculty of Technology and
Information Science, Universiti Kebangsaan Malaysia
sabrinatiun@ukm.edu.my, a161004@siswa.ukm.edu.my
ABSTRAK
Keupayaan teknologi Word Embedding (WE) dalam menakul pengetahuan semantik daripada
korpus mendapat perhatian para penyelidik bukan sahaja dari bidang pemprosesan bahasa
tabii (NLP) dan sains data, tetapi juga dari bidang sains sosial, seperti sosiologi. Oleh yang
demikian, dalam kajian ini, keupayaan WE dieksporasi dengan menakul pengetahuan dari
korpus sosial media Bahasa Melayu, iaitu ‘Chat-style-text Corpus’ (MCC). Keupayaan WE
diuji dengan menggunakan WE dalam menganalisis sosio-budaya pengguna Twitter Bahasa
Melayu di Malaysia. Memandangkan kebanyakkan pengguna Twitter menggunakan media
sosial dalam mengeksprasikan kehidupan mereka, oleh itu WE digunakan dalam menganalisis
secara ringkas sosio-budaya golongan pengguna Twitter di Malaysia. Bagi memudahkan
penilaian terhadap keupayaan WE, beberapa aspek sosio-budaya seperti gaya hidup dan nilai
sentimen dijadikan sebagai fokus kajian. Melalui dapatan kajian, dapat disimpulkan
pendekatan WE boleh dijadikan sebagai salah satu kaedah dalam menakul dan menganalisis
sosio-budaya berdasarkan korpus.
Katakunci: Word embedding, korpus sosial media, sosio-budaya, penakulan pengetahuan,
penakulan sentiment, Twitter.
57
PENGENALAN
Maksud sosio-budaya mengikut definisi Dewan Bahasa dan pustaka ialah hubungan
masyarakat dengan budaya, contohnya, gaya hidup, peradaban, pegangan dan pandangan,
yang secara langsung meransang pembangunan hidup masyarakat tersebut. Dalam kertas
kerja ini, pendekatan word embedding (WE) diuji samada mampu menakul pengetahuan atau
maklumat mengenai amalan dan perspekif kehidupan masyarakat Malaysia, khususnya
pengguna Twitter Bahasa Melayu. Aplikasi Twitter adalah satu platform komunikasi yang
bersifat terbuka dan ini mengundang pelbagai jenis bentuk unsur budaya daripada pengguna-
pengguna Twitter. Oleh itu, korpus Twitter dilihat sangat sesuai digunakan sebagai medium
pengeksplorasian sosio-budaya.
Word embedding (WE)
Word embedding merupakan salah satu teknik dalam pemprosesan bahasa tabii (NLP) samada
digunakan sebagai fitur pembangunan aplikasi NLP, seperti pengecaman entiti (Abd dan
Masnizah, 2018) atau sebagai kaedah kajian bidang berdasarkan korpus (Sabrina et al. 2020).
‘Word embedding’ (WE) sebenarnya adalah satu bentuk perwakilan dokumen perkataan dalam bentuk
vektor. Model WE adalah berdasarkan pada teori distribution semantic model (DSM) yang
menyatakan hubungan semantik perkataan akan lebih tinggi dengan perkataan yang terletak
disekeliling perkataan sasaran (Desagulier, 2019). Dalam erti kata lain, perkataan yang berada dalam
konteks yang sama dan mempunyai hubungan semantik yang tinggi; samada hubungan sama erti,
hubungan berlawanan atau hubungan mempunyai konsep semantik yang sama (Mikolov, Yih &
Zweig, 2013). Terkini, model WE yang sering digunakan dalam kajian ialah model GloVe, Fasttext
dan Word2vec (Sabrina et al, 2020).
METOD KAJIAN
Set data
Set data dalam kajian ini ialah korpus Twitter iaitu MCC (Chat-style-text Corpus) yang dibina
oleh Saloot et al. (2014). Korpus ini mengandungi 14,484,384 contoh perkataan dan 646,807
istilah dari satu juta mesej Twitter yang dikutip dari Januari 2012 hingga November 2012.
Korpus ini adalah koleksi teks gaya sembang pengguna aplikasi Twitter di Malaysia, yang
58
mana teks yang ditulis dalam Bahasa Melayu lebih tinggi (skor keyakinan 0.8962) berbanding
bahasa lain (skor keyakinan Bahasa Inggeris = 0.2128) (Saloot et al., 2014).
Metod
Metod kajian ini mengandungi dua fasa utama, iaitu: (i) pembinaan model WE korpus MCC,
dan (ii) penakulan pengetahuan dan sentimen.
Fasa 1: Pemprosesan korpus and pembinaan model WE
Pada fasa ini korpus MCC dibersihkan dengan membuang semua simbol dan nombor. Selepas
itu, semua perkataan dinormalkan menjadi tulisan huruf kecil. Korpus yang telah dibersihkan
dan dinormalkan diguna sebagai data latihan pembinaan model WE. Model WE yang dipilih
dalam kajian ini ialah model Word2vec. Ini memandangkan model Word2vec mempunyai
keupayaan yang tinggi dalam membuat ramalan and proses penakulan dalam kajian ini merupakan
satu kaedah ramalan.
Fasa 2: Penakulan berdasarkan hubungan persamaan semantik
Menggunakan model WE yang telah dibina, hubungan semantik perkataan-perkataan di

dalam korpus boleh ditakul. Dalam model WE, nilai hubungan semantik antara perkataan
adalah dalam julat 1-0. Nilai 1 bermakna, hubungan semantik bagi antara dua perkataan
adalah sangat tinggi, atau dalam erti kata lain, kedua-dua perkataan tersebut adalah sinonim.
Oleh itu jika nilai hubungan semantik menghampiri 1, maka hubungan semantik kedua-dua
perkataan itu sangat tinggi dan adalah disebaliknya jika nilai hubungan menghampiri sifar.
Rajah 1: Senarai perkataan yang mempunyai hubungan semantik yang tinggi dengan perkataan ‘makan’
Dalam kajian ini, kod fungsian model.most similar() digunakan untuk menjana senarai
perkataan yang mempunyai hubungan semantik yang tinggi dengan perkataan sasaran.
59
Contohnya, sekiranya perkataan sasaran ialah ‘makan’, senarai perkataan yang dijana adalah
seperti rajah 1.
Selain daripada itu, kod fungsian model.similarity(perkataan1,perkataan2) juga diguna untuk

mendapatkan nilai hubungan semantik khusus untuk dua perkataan sasaran. Contohnya, jika
perkataan sasaran tersebut ialah ‘makan’ dan ‘pedas’, model WE akan memberikan nilai
hubungan semantik seperti rajah 2. Menggunakan kedua-dua fungsian model WE, beberapa
submodul dibina untuk tujuan penakulan (lihat rajah 3).
Dalam kertas kerja ini model WE diimplementasikan dalam menakul pengetahuan dan
sentimen pengguna Twitter menggunakan beberapa perkataan sasaran.
Rajah 2: Senarai perkataan yang mempunyai hubungan semantik yang tinggi menggunakan perkataan sasaran
‘makan’ dan ‘pedas’
Perkataan senarai perkataan

yang mempunyai penapisan
sasaran perkataan
hubungan semantik
yang tinggi
senarai
perkataan
akhir
Rajah 3: Diagram submodul untuk menakul pengetahuan dan nilai sentimen dari korpus MCC
DAPATAN DAN ANALISIS
Dalam menguji keupayaan model WE menakul maklumat atau pengetahuan. Kajian

menumpu pada dua jenis penakulan; penakulan pengetahuan dan penakulan sentimen.
Penakulan pengetahuan
60
Dalam eksperimen ini, keupayaan WE diuji dengan menakul akitivi yang biasa dilakukan
oleh pengguna Twitter jika berkumpul atau berjumpa (‘lepak’). Menggunakan fungsian
persamaan semantik, perkataan ‘lepak’ dan berapa perkataan yang berkaitan dengan kegiatan
aktiviti ‘lepak’ ditakul dari model WE korpus MCC. Rajah 4 di bawah menunjukkan kegiatan
aktiviti ‘lepak’’ dengan perkataan ‘dating’ mempunyai hubungan semantik yang tinggi. Ini
menggambarkan kebanyakkan pengguna Twitter mengisi masa santai (‘lepak’) dengan aktiviti
‘dating’. Manakala, hubungan semantik di antara ‘lepak’ dengan ‘starbuck’ rendah sedikit
dari perkataan ‘mamak’. Hubungan ini boleh digunakan sebagai andaian, pengguna Twitter
lebih suka keluar berjumpa atau berkumpul (‘lepak’) di kedai mamak berbanding kedai kopi
Starbuck. Namun, dengan beza nilai yang sangat kecil, dapat juga disimpulkan,
kecenderungan aktiviti ‘lepak’ di kedai mamak berbanding di kedai kopi Starbuck adalah
sama.
Rajah 4: Nilai hubungan semantik bagi perkataan ‘lepak’ dengan beberapa perkataan pilihan
Penakulan sentimen
Kajian penakulan sentimen dikaji dengan memadankan perkataan ‘najibrazak’ (akaun seorang
ahli politik) dengan set perkataan sentimen. Set perkataan sentimen ini dikumpul
menggunakan kaedah dalam rajah 3. Di mana, contohnya perkataan ‘menyampah’
dikembangkan menggunakan fungsian model.mostsimilar(),dan senarai akhir dipilih secara
manual.
Rajah 4: Senarai perkataan yang dijana berdasarkan perkataaan sasaran ‘menyampah’
Hasil dari proses penakulan, nilai jumlah skor hubungan semantik bagi perkataan sentimen
positif (‘respek’ dan ‘hormat’) dan negatif (‘menyampah’ dan ‘meluat’) dikira. Dalam kajian
61
ini, skor positif (0.94) lebih tinggi dari skor negatif (0.63). Oleh itu, dapat diandaikan pada
tahun tersebut, sentimen terhadap pengguna akaun Twitter ‘najibrazak’ oleh pengguna Twitter
adalah positif. Rajah 5 menunjukkan skor leksikon sentimen pengguna Twitter kepada
seorang ahli politik (‘najibrazak’).
Rajah 5: senarai perkataan yang dijana berdasarkan perkataaan sasaran ‘najibrazak’
KESIMPULAN
Melalui kajian ini, penakulan pengetahuan dan sentimen menggunakan kaedah kecerdasan
buatan (AI) NLP, iaitu word embedding (WE) telah dilakukan. Keupayaan WE dikaji dengan
menggunakan korpus Twitter sebagai satu kaedah dalam kajian sosio-budaya. Berdasarkan
dapatan dan andaian menggunakan beberapa perkataan sasaran, WE dapat menakul
pengetahuan dan sentimen. Walaubagaimanapun, keberkesanan dan kejituan kaedah ini
belum lagi dinilai secara sistematik dan mendalam. Namun, melalui kajian ini kaedah WE
dapat dibuktikan boleh dijadikan sebagai salah satu kaedah dalam menakul dan menganalisis
sosio-budaya berdasarkan korpus.
PENGHARGAAN
Kajian ini dibiayai menggunakan peruntukan geran penyelidikan GGPM-2017-025.
RUJUKAN
Desagulier, G. (2019). Can Word Vectors help corpus linguists? Studia Neophilologica,
91(2), 219-240.
Mikolov, T., Yih, W. & Zweig, G. (2013). Linguistic Regularities in Continuous Space Word
Representations. In Proceedings of the 2013 Conference of the North American
Chapter of the Association for Computational Linguistics: Human Language
Technologies (NAACL-HLT-2013).
Sabrina T., Fariza N., Azhar J. & Anis R. (2020). Word Embedding for Small and Domain
specific Malay Corpus. Computational Science and Technology, pp.435-443. 6th
ICCST 2019, Kota Kinabalu, Malaysia, 29-30 August 2019.
62
Saloot, M. A, Idris, N., Aw, A., & Thorleuchter, D. (2014). Twitter corpus creation: The case
of a Malay Chat-style-text Corpus (MCC). Literary and Linguistic Computing, 31(2),
227-243.
Abd, M. & Masnizah M. (2018). A Comparative Study of Word Representation Methods with
Conditional Random Fields and Maximum Entropy Markov for Bio-Named Entity
Recognition. Malaysian Journal of Computer Science, 15-30.
Saloot, M. A, Idris, N., Aw, A., & Thorleuchter, D. (2014). Twitter corpus creation: The case
of a Malay Chat-style-text Corpus (MCC). Literary and Linguistic Computing. 31, 1-
17. Retrieved October 14, 2019 from
https://umexpert.um.edu.my/file/publication/00005398_114368.pdf
INTERRUPTIONS IN THE MALAYSIAN PARLIAMENTARY DEBATES
Tan Kim Hua & Chen Wei Shan

Centre for Literacy and Sociocultural Transformation, Universiti Kebangsaan Malaysia
kimmy@ukm.edu.my*, casscws@gmail.com
ABSTRACT
The Malaysian parliamentary discourse reflects the process of a collective real-life interaction between
the Members of Parliament originating from a variety of sociological, political and cultural
backgrounds that reflects the diversity of Malaysia. One of the basic components that makes up the
dynamics of the interactions is the frequent violations of the turn-taking system during the debates, or
interruptions. This study aims to contribute to the research on Malaysian parliamentary debates and
also to contribute to a deeper understanding of interruptions. Past works relating to parliamentary
discourse have been reviewed as well as past studies in relation to interruptions within the field of
conversation analysis. A total of 49 debates in the Malaysian Hansard between 19 July 2019 and 11
April 2019 were examined to elicit the phenomenon of interruptions. Interpretations on the results
were largely qualitative in nature. Of particular interest is how culture-related interruptions have crept
into the Malaysian Parliamentary Debates. The types and functions of interruptions were identified
and discussed.
Keywords: Interruptions, Parliamentary, Hansard, debate, culture
63
INTRODUCTION
Parliamentary discourse contains recorded data of how language is performed within the context of
public administration by the participants, who are the Members of Parliament (MP). A good debate is
considered to have points of conflict that is then resolved where a win-win solution is achieved, of
which one of the manifestations of conflict in a debate dialogue is interruption to the conversation
turn-taking system.
Rather that viewing conversational interruptions as negative and to be avoided at all costs, it should be
investigated further to gain a better understanding on its role in aiding the achievement of a conflict
resolution. Researchers have yet to properly define the role played by interruptions in human
conversations and their functions in various settings. Therefore, the objectives of this study are to
investigate the types of interruptions in the Malaysian Hansard and how these interruptions operate
within the context of parliament in terms of its general and specific functions.
LITERATURE REVIEW
Parliament represents a traditional setting for open and confrontational dialogue among selected
members of society (Ilie, 2005) and acts as democratically constituted forums for political
deliberation, problem-solving and policy-making (Atkinson, 2011). Analysis of the data in
parliamentary records gives better insight on how individual speakers can shape the variation and
language change of a society.
Conversation Analysis and Turn-Taking

Conversation analysis delves deeper into the communication between people to understand how
people socially function with each other. Casual conversations were the primary focus of conversation
analysis, but its methods had evolved to investigate institution-centred conversations such as in
classrooms, courtrooms and healthcare settings (Drew & Heritage, 1992; Seedhouse, 2004; Maynard
& Heritage, 2005).
Sacks, Schegloff and Jefferson (1974) first established the turn-taking system, where the speaker role
alternate between the interlocutors involved in the conversation, then confirmed by Wilson and Wilson
(2005) that the timing of turn-taking is tightly synchronized, implying that occurring interruptions are
intended and deliberate.
Re-interpreting Interruptions
Early studies would contest that interruptions have negative connotations and should be generally
avoided in conversations (Sacks et al., 1974; Octigan & Niederman, 1979), but further investigating
64
the phenomenon of interruption proved that there are other variables to consider such as the type of
discourse the interlocutors are engaged in and their roles.
Given that most of the MPs in Malaysia are comprised of people who wield a certain amount of
influence and power in society, in addition to 1MDB being a popular issue for Malaysians at the time
of this present study, it is hypothesised that interruption would be a frequent phenomenon appearing in
the Malaysian parliament.
METHODOLOGY
The method of discourse analysis in this qualitative study was used to analyse the types of
interruptions found in the Malaysian Hansard regarding the scandal of 1MDB. It is based on the
findings of Ilie (2005) in the British parliamentary debates, which is the main theoretical framework
for this study.
Ilie considered the following parameters in regards to the type of interruptions, there are two types:
verbal and non-verbal. Under the subcategory of verbal are three more subtypes, which are i) turn-
eliciting, ii) turn-regulating and iii) backchanneling interruptions. Pertaining to the functions of these
interruptions, there are three types, i) positively marked, ii) negatively marked and iii) neutral
interruptions.
The data used in this study was taken from the written and published transcriptions of the Malaysian
parliamentary debates, also known as the Hansard. It can be found online at the official website of the
parliament of Malaysia. Debate transcriptions from 18 July 2018 to 11 April 2019 regarding 1MDB
were scanned and analysed within its context to determine the suitability of the excerpt for indications
of interruptions.
FINDINGS AND DISCUSSION

Types of Interruption
Based on the findings of Ilie (2005), the types of interruptions found in this study can be separated into
verbal and non-verbal interruptions. Under verbal interruptions were three categories of interruptions
which are i) turn-eliciting interruptions, ii) turn-regulating interruptions and iii) backchanneling
interruptions.
Turn-eliciting interruptions were almost always done by the MPs and can be either institutionally
acceptable or not. The variation of interruptions by the MPs included one or more of the following
phrases that are considered to be institutionally acceptable:
1) Using variations of minta laluan or bagi jalan to inform the current speaker that the
interruptor is asking to give way
2) Using boleh mencelah as the more direct way of asking permission to interrupt
3) Using variations of the sedikit penjelasan interruption to indirectly ask to be given way
65
While the British Hansard has one way of eliciting a turn in an institutionally acceptable manner, it
was discovered that the Malaysian Hansard has a variety of institutionally acceptable turn-eliciting
interruptions. This somewhat reflects the culture of being sensitive towards the feelings of other
conversation participants that is an important component of the Malay tradition as proposed by
Goddard (2004). The different linguistic manifestations of institutionally acceptable turn-elicitating
interruptions performed by both Malay and non-Malay MPs imply that the direct nature of asking to
give way is somewhat in conflict with the culture of Malaysia.
Turn-regulating interruptions were mainly performed by the Chair for the purpose of regulating the
debate. The Chair either informs that the current speaker did not give way to the interruptor or reminds
the MPs to follow the rules of debate and to ask for permission.
Backchanneling interruptions have been found to appear in the Malaysian Hansard as well, usually as
a response to what the current speaker said. One of the forms of backchannel interruptions is
performed by a collective of MPs simultaneously speaking at the same time, expressing what they and
is notated as [dewan riuh]. Individual MPs also performed backchannel interruptions as complete
audible sentences as recorded in the Hansard.
The non-verbal interruption by the Chair is notated as [pembesar suara dimatikan], which is the act of
turning off the microphone of the interrupting MP to prevent the interruption. For the MPs, the non-
verbal interruption is notated as [bangun], which is the act of rising from one’s seat to cue the current
speaker to give way.
Functions of Interruptions
The functions of interruptions found in the Malaysian Hansard can be categorised into three functions:
1) Positively marked interruptions, which is meant to be cooperative and showing
support to the current speaker;
2) Negatively marked interruptions, which is used to disrupt the flow of the current
speaker by taking the floor away from the current speaker and diverting the debate
into another topic;
3) Neutral interruptions, performed by the Chair to regulate the debate and redirecting
the direction of the debate.
All of these functions serve a common purpose, which is to catalyse the process of reaching a
resolution in the parliament that is agreeable by all MPs and to prevent the wasting of time to answer
and debate about a particular issue.
CONCLUSION
66
The Malaysian Parliament is seen to be as dynamic as other parliaments from other countries, as
shown in the types of interruptions found and its functions as well. In regards to the variety of
acceptable turn-elicitating interruptions, the Malaysian MPs have more than one method of eliciting a
turn to speak reflecting the Malay culture of not being direct when requesting because it might sound
rude.
REFERENCES
Atkinson, D. (2011). Political implicature in parliamentary discourse: An analysis of Mariano Rajoy’s
speech on the 2006 Catalan Statute of Autonomy. In Lorenzo-Dus, N. (ed.): Spanish at Work.
Palgrave Macmillan, London. 130-145.
Drew, P., & Heritage, J. (1992). Contested evidence in courtroom cross-examination: The case of a
trial for rape. In Drew, P., & Heritage, J. (eds.): Talk at work: Interaction in institutional
settings.
Goddard, C. (2004). Speech-acts, values and cultural scripts: a study in Malay ethnopragmatics. 15th
Biennial. 1-13.
Ilie, C. (2005). Interruption patterns in British parliamentary debates and drama dialogue. In Dialogue
Analysis IX: Dialogue in Literature and the Media, Part 1: Literature: Selected Papers from
the 9th IADA Conference, Salzburg 2003. 30: 311-326.
Maynard, D. W., & Heritage, J. (2005). Conversation analysis, doctor–patient interaction and medical
communication. Medical education. 39(4): 428-435.
Octigan, M., & Niederman, S. (1979). Male dominance in conversations. Frontiers: A Journal of
Women Studies. 1:50-54.
Sacks, H., Schegloff, E. A., & Jefferson, G. (1974). A simplest systematics for the organization of
turn-taking for conversation. Language. 50: 696-735.
Seedhouse, P. (2004). The interactional architecture of the language classroom: A conversation
analysis perspective. Language Learning.
Wilson, M., & Wilson, T. P. (2005). An oscillator model of the timing of turn-taking. Psychonomic
bulletin & review. 12(6): 957-968.
67

Proceeding of Digital Humanities Symposium 2019

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Proceeding of Digital Humanities Symposium 2019

Diunggah oleh

Hak Cipta:

Format Tersedia

PROSIDING SIMPOSIUM KEMANUSIAAN DIGITAL 2019

YBhg. Prof. Dato Dr. Imran Ho Abdullah

Assalamualaikum Warahmatullahi Wabarakatuh dan Selamat Sejahtera.

Selamat maju jaya.

Prof. Dato Dr. Imran Ho Abdullah

10 KEPENTINGAN ANALISA SENTIMEN DALAM PILIHAN RAYA PRESIDEN 52

11 PENDEKATAN WORD EMBEDDING DALAM KAJIAN SOSIO-BUDAYA 57

ICERD IN MALAYSIAN ONLINE NEWS REPORTS: A CROSS-LINGUISTIC

Siti Aeisha Joharry & Nor Diyana Saupi

Keywords: ICERD, corpus analysis, Malaysian online news, rhetoric, cross-linguistic

FINDINGS AND DISCUSSION

33 had 4.09 20 Sabtu 4.46 21

Figure 1: Concordance lines for ‘meratifikasi ICERD’ in Berita Harian

Figure 2: Concordance lines for ‘ratify ICERD’ in The Star Online

ANNOTATION TOOLS FOR AI ANALYSIS OF CORPUS DATA

Afendi Hamat & Anton Heryanto

Pusat Literasi dan Transformasi Sosiobudaya, Universiti Kebangsaan Malaysia

Fakulti Teknologi dan Sains Maklumat, Universiti Kebangsaan Malaysia

Keywords: NLP, artificial intelligence, corpus analysis.

1. Web-based: Distributed work, no installation effort, increased availability (

• Paging and optimization: For heavily annotated documents or very large

• Annotation layers: Annotators usually work on one or two annotations layers,

PROSODI ‘WANITA’ DALAM PARLIMEN MALAYSIA: SATU ANALISIS BERASASKAN

Pusat Literasi dan Transformasi Sosiobudaya, Universiti Kebangsaan Malaysia

P87706@siswa.ukm.edu.my*, imranho@ukm.edu.my, intansz@ukm.edu.my

Kata kunci: Wanita, Korpus Hansard Malaysia, Prosodi Semantik

Jadual 1. Imbasan kajian lalu prosodi semantik

Pengkaji Leksis Prosodi

Jadual 2: tahun bersidang bagi Parlimen 13

Pengkategorian Kumpulan Kelas Kata

Pengelasan Prosodi Semantik

DAPATAN KAJIAN DAN PERBINCANGAN

Jadual 3: Taburan kolokasi ‘wanita’ mengikut kumpulan kelas kata

Kumpulan kelas kata Kekerapan

Jadual 4: Prosodi ‘wanita’ mengikut Kata Nama

No Negatif MI F Positif MI F Neutral MI F

Jadual 5: Prosodi ‘wanita’ mengikut Kata Kerja

No Negatif MI F Positif MI F Neutral MI F

PEMBINAAN KORPUS WEB BAHASA MELAYU

Terdapat dua permasalahan yang memotivasikan kajian ini iaitu

1. Terdapat kelompangan dalam pembangunan korpus web bahasa Melayu yang

1. untuk membina prosedur telusur yang diperlukan untuk mencari, mengekstraksi,

Rajah 1 Kerangka konsep web sebagai gudang korpus

HASIL DAN RUMUSAN KAJIAN

Bil Web Institusi ajspider ajscraper ajPost- Nyah Peratus

2 USM 7460 6821 693 534 7.16%

3 UPM 3008 2944 1241 171 5.68%

4 UKM 12460 7241 1086 952 7.64%

5 UiTM 5934 5875 1089 181 3.05%

KESELURUHAN 30184 23741 4454 2145 7.11%

Rajah 2 memaparkan perbandingan taburan panjang perkataan korpus DBP-UKM dengan

Lexical Computing. 2018. Lexical Computing. https://www.lexicalcomputing.com/lexical-

COMPUTATIONAL THINKING FOR FUTURE DATA SCIENTISTS (PEMIKIRAN

Filzah Zahilah Binti Mohamed Zaki1, Mohd Ridzwan Yaakub2,

Keywords: Computational thinking, data science, 21st century skills

Figure 1: Data Science Venn Diagram by Hugh Conway (2010)

DISCUSSION: CONNECTION BETWEEN COMPUTATIONAL THINKING (CT) AND

Figure 2: Data science is multidisciplinary (Tierney, 2016)

Swaid, S. I. (2015). Bringing Computational Thinking to STEM Education. Procedia Manufacturing,

Tierney, B. (2016). Data Science is multidisciplinary. Retrieved from Oralytics website:

TREND PENGGUNAAN LEKSIS ‘KUASA’ DALAM KORPUS HANSARD PARLIMEN

Intan Safinaz Zainudin & Anis Nadiah Che Abdul Rahman

Pusat Literasi dan Transformasi Sosiobudaya (CLaST), Universiti Kebangsaan Malaysia

intansz@ukm.edu.my and P87706@siswa.ukm.edu.my