Anda di halaman 1dari 65

TEKNIK KOMPILASI

Badrul Hilmi S.ST, MSc

DAFTAR PUSTAKA
Compilers: Principles, Techniques, and Tools (commonly known as the Dragon Book)

TUJUAN

TUJUAN

Materi

Teknik Kompilasi
Sejarah Tujuan Komponen

Analisa Leksikal
Konsep Model Regular Expession Finite-state machine

Analisa Sintaks
Pengenalan Grammar Model Grammar Parsing : Top Down Parsing Bottom Up

Materi
Deklarasi Attributes

Analisa Semantik

Contoh Cara Penggunaan

Intermediate Code Generator


Construction of basic block Generation of code from expression and basic block

Code Optimizer
Flow graphs Data-flow frameworks

Materi

ARTI KATA TEKNIK KOMPILASI


Teknik :
Metode atau Cara

Kompilasi :
Proses mengabungkan serta menterjermahkan sesuatu (source program) menjadi bentuk lain (translator)

Compile :
To translate a program written in a high-level programming language into machine language.

Sejarah
Kompilator pertama yang dibuat adalah kompilator untuk bahasa FORTRAN Dikembangkan dengan memakan sejumlah tenaga ahli yang setara dengan pekerjaan yangdilakukan oleh 18 orang. Dengan adanya program bantu dan tata cara pembentukan yang sistematis dan tertata dengan baik serta pendefinisian struktur bahasa yang cermat, maka suatu kompilator untuk bahasa yang terstruktur seperti PASCAL atau C dapat dikembangkan.

Kenapa perlu Translator ?


Dengan bahasa mesin adalah bahasa bentuk bahasa terendah komputer, berhubungan langsung dengan bagian bagian komputer seperti bits, register & sangat primitive Jawaban atas pertanyaan ini akan membingungkan bagi programmer yang membuat program dengan bahasa mesin. Bahasa mesin adalah tidak lebih dari urutan 0 dan 1 Instruksi dalam bahasa mesin bisa saja dibentuk menjadi microcode, semacam prosedur dalam bahasa mesin Bagaimana dengan orang tidak mengerti bahasa mesin

Translator : Compiler & Interpreter


Translator melakukan pengubahan source code / source program kedalam target code / object code Interpreter dan Compiler termasuk dalam kategori translator.
Interpreter

Tidak membangkitkan object code.


Translator

Source code dan data diproses bersamaan. Contoh: BASICA, SPSS, DBASE III.
Compiler Assembler

Source Code adalah bahasa tingkat tinggi. Object Code adalah bahasa mesin atau assembly. Source code dan data diproses tidak bersamaan. Contoh: PASCAL, C.

Source Code adalah bahasa Assembly Object Code adalah bahasa mesin. Contoh: Turbo Assembler.

Compiler
Source code adalah bahasa tingkat tinggi, object code adalah bahasa mesin atau bahasa assembly. Source code dan data diproses berbeda

Data
Source code Compiler Execution

Hasil

Interpreter

Object Code

Interpreter tidak menghasilkan bentuk object code, tetapi hasil translasinya hanya dalam bentuk internal, dimana program induk harus selalu ada-berbeda dengan compiler

Source code Translator Data Hasil

Translator : Compiler

Source Program

Compiler

OBJECT PROGRAM

ERROR MESSAGES

COMPILER vs INTERPRETER
Compiler bisa menangkap berbagai kesalahan dalam 1 program kode sumber secara sekaligus. Kalau Interpreter cuma bisa menangkap beberapa kesalahan pada 1 baris kode sumber pada suatu saat Biasanya program yang dihasilkan compiler lebih cepat dari waktu pelaksanaan program dengan interpreter. Kalau compiler menghasilkan kode antara (misal object code) dan harus digabungkan / dilink menjadi bentuk yang dapat dijalankan mesin / komputer (executable). Kalau Interpreter biasanya tidak menghasilkan kode antara. Kalau hendak menjalankan program hasil kompilasi bisa dilakukan tanpa kode sumber. Kalau interpreter butuh kode sumber.

COMPILER vs INTERPRETER
Kalau dengan kompiler, maka pembuatan kode yang bisa dijalankan mesin dilakukan dalam 2 tahap terpisah, yaitu parsing / pembuatan kode objek dan linking / penggabungan kode objek dengan library. Kalau interpreter tidak ada proses terpisah. Kalau compiler membutuhkan linker untuk menggabungkan kode objek dengan berbagai macam library demi menghasilkan suatu kode yang bisa dijalankan oleh mesin. Kalau interpreter tidak butuh linker. .

COMPILER vs INTERPRETER
Interpreter cocok untuk membuat / menguji coba modul / sub-routine / program-program kecil. Kalau compiler agak repot karena untuk mengubah suatu modul / kode objek kecil, maka harus dilakukan proses linking / penggabungan kembali semua objek dengan library yang diperlukan. Pada kompiler bisa dilakukan optimisasi / peningkatan kwalitas kode yang bisa dijalankan. Ada yang dioptimasi supaya lebih cepat, ada yang supaya lebih kecil, ada yang dioptimasi untuk sistem dengan banyak processor. Kalau interpreter susah / tidak bisa dioptimasikan.

Proses kompilasi dikelompokkan ke dalam dua kelompok besar :


1.

2.

analisa : program sumber dipecah-pecah dan dibentuk menjadi bentuk antara (intermediate representation) sintesa : membangun program sasaran yang diinginkan dari bentuk antara

Fase-fase proses sebuah kompilasi

Penganalisa Leksikal
membaca program sumber, karakter demi karakter. Sederetan (satu atau lebih) karakter dikelompokkan menjadi satu kesatuan mengacu kepada pola kesatuan kelompok karakter (token) yang ditentukan dalam bahasa sumber. Kelompok karakter yang membentuk sebuah token dinamakan lexeme untuk token tersebut. Setiap token yang dihasilkan disimpan di dalam tabel simbol. Sederetan karakter yang tidak mengikuti pola token akan dilaporkan sebagai token tak dikenal (unidentified token)

Penganalisa Sintaks
memeriksa kesesuaian pola deretan token dengan aturan sintaks yang ditentukan dalam bahasa sumber. Sederetan token yang tidak mengikuti aturan sintaks akan dilaporkan sebagai kesalahan sintaks (sintax error). Secara logika deretan token yang bersesuaian dengan sintaks tertentu akan dinyatakan sebagai pohon parsing (parse tree)

10

Penganalisa Semantik
memeriksa token dan ekspresi dari batasan-batasan yang ditetapkan. Batasan-batasan tersebut misalnya : a. panjang maksimum token identifier adalah 8 karakter, b. panjang maksimum ekspresi tunggal adalah 80 karakter, c. nilai bilangan bulat adalah -32768 s/d 32767, d. operasi aritmatika harus melibatkan operan-operan yang bertipe sama

Pembangkit Kode Antara


membangkitkan kode antara (intermediate code) berdasar-kan pohon parsing. Pohon parse selanjutnya diterjemahkan oleh suatu penerjemah yang dinamakan penerjemah berdasarkan sintak (syntax-directed translator). Hasil penerjemahan ini biasanya merupakan perintah tiga alamat (three-address code) yang merupakan representasi program untuk suatu mesin abstrak. Perintah tiga alamat bisa berbentuk quadruples (op, arg1, arg2, result), tripels (op, arg1, arg2). Ekspresi dengan satu argumen dinyatakan dengan menetapkan arg2 dengan - (strip, dash)

11

Pengoptimal kode
melakukan optimasi (penghematan space dan waktu komputasi), jika mungkin, terhadap kode antara

Pembangkit Kode Mesin


membangkitkan kode dalam bahasa target tertentu (misalnya bahasa mesin)

12

Contoh Kompilas i

View dari programmer

13

Mesin View

Pembuatan compiler
Bahasa mesin Sangat sukar dan sangat sedikit kemungkinannya untuk membuat compiler dengan bahasa ini, karena manusia susah mempelajari bahasa mesin, Sangat tergantung pada mesin, Bahasa Mesin kemungkinan digunakan pada saat pembuatan Assembler

14

Pembuatan compiler
Assembly Hasil dari program mempunyai Ukuran yang relatif kecil Sulit dimengerti karena statement/perintahnya singkatsingkat, butuh usaha yang besar untuk membuat Fasilitas yang dimiliki terbatas

Pembuatan compiler
Bahasa Tingkat Tinggi (high level language) Lebih mudah dipelajari Fasilitas yang dimiliki lebih baik (banyak) Memiliki ukuran yang relatif besar, misal membuat compiler pascal dengan menggunakan bahasa C Untuk mesin yang berbeda perlu dikembangkan tahapan-tahapan tambahan. Misal membuat compiler C pada Dos bedasarkan compiler C pada unix

15

Contoh dari source program ke dalam kode mesin


Source code Assembly Language Machine language IF COUNT =10 GOTO DONE ELSE GOTO AGAIN ENDIF Compare A to B If equal go to C Go to D Compare 3477 2883 If = go to 23883 Go to 23343

Actual machine code 10010101001010001010100 10101010010101001001010 10100101010001010010010

BAHASA SUMBER

16

DEFINISI bahasa sumber


Bahasa adalah kumpulan kalimat. Kalimat adalah rangkaian kata. Kata adalah unit terkecil komponen bahasa yang tidak bisa dipisah-pisahkan lagi. Kalimat-kalimat : Seekor kucing memakan seekor tikus. dan Budi menendang sebuah bola. adalah dua contoh kalimat lengkap Bahasa Indonesia. A cat eats a mouse dan Budi kick a ball. adalah dua contoh kalimat lengkap Bahasa Inggeis. if a2 < 9.0 then b2 := a2+a3; dan for i := start to finish do A[i] := B[i]*sin(i*pi/16.0). adalah dua contoh kalimat lengkap dalam Bahasa Pemrograman Pascal. Dalam bahasa pemrograman kalimat lebih dikenal sebagai ekspresi sedangkan kata sebagai token

Bahasa Tingkat Tinggi (Pemrograman )


Bahasa yang lebih dikenal oleh manusia, maksudnya adalah statement yang digunakan menggunakan bahasa yang dipakai oleh manusia (inggris), Bahasa pemrograman didefinisikan dengan menentukan bentuk programnya (sintak) dan arti programnya (semantik) Memberikan fasilitas yang lebih banyak, seperti struktur kontrol program yang terstruktur, blok-blok serta prosedur dan fungsi-fungsi Progam mudah untuk di koreksi (debug) Tidak tergantung pada salah satu mesin Kontrol struktur seperti : kondisi (if .. Then.. Else ), perulangan (For, while ), Struktur blok (begin.. End { .. } )

17

Tingkatan Bahasa Pemrograman

Sumber perancangan bahasa


Konstruksi yang diturunkan dari bahasa alami, karena bahasa alami dapat digunakan sebagai panduan untuk perancangan sintaks Matematika, misal untuk perancangan operasi aritmatika Bahasa pemrograman yang sudah ada.

18

Sumber perancangan bahasa


Perancangan sebuah bahasa harus memperhatikan tiga aspek berikut : 1. spesifikasi leksikal, misalnya setiap kata harus tersusun atas huruf mati dan huruf hidup yang disusun bergantian, atau setiap token harus dimulai dengan huruf dan selanjutnya boleh diikuti oleh huruf atau angka, 2. spesifikasi sintaks, misalnya setiap kalimat mengikuti pola subyekpredikat-obyek atau ekspresi for_do mengikuti pola for-identifier-:=identifier-to-identifier-do-ekspresi. 3. aturan-aturan semantik, misalnya kata yang mendahului kata kerja haruslah kata benda yang menggambarkan sesuatu yang hidup dan berkaki, atau operasi perkalian hanya bisa dilakukan antara dua operan dengan tipe yang sama.

Sumber perancangan bahasa

Berdasarkan rancangan bahasa di atas, perhatikan hal-hal berikut: Kita tidak bisa mengganti kata Budi dengan 8udi sebagaimana kita tidak bisa mengganti token start dengan ?tart. Kita juga tidak bisa merubah susunan kata-kata menjadi Budi sebuah menendang bola sebagaimana kita tidak boleh merubah susunan token-token menjadi 9.0 if < a2 then b2:= a2. Demikian pula kita tidak boleh mengganti kata Budi dengan lemari sebagaimana kita tidak boleh mengganti B[i]*sin(i*pi/16.0) dengan B*sin(i*pi/16.0).

19

Tujuan perancangan bhs program


Komunikasi dengan manusia Pencegahan dan deteksi kesalahan Usability Efektifitas pemrograman Compilability (mengurangi kompleksitas,mis:penggunaan bracket) Efisiensi dengan meminimalisir ketidakcocokan antara hardware dengan bahasa

Tujuan perancangan bhs program(2)


Machine independent Simplicity :penyederhanaan komponen bahasa program Orthogonality : kumpulan primitive yang dikombinasikan dengan berbagai cara dalam membangun kontrol dan struktur data dalam bahasa program

20

Struktur Ekspresi
Metode pengurutan evaluasi dalam ekspresi : Explicit Bracketing Operator binding Binding adalah asosiasi antara atribut dan entity atau antara operasi dan simbol. Binding time adalah waktu yang dialokasikan untuk menyatukan variable dengan nilainya.

Struktur Data
Empat aspek dalam struktur data Deklarasi data Tipe data yang tersedia Alokasi storage Lingkup variabel

21

Struktur I/O
Format free langsung ditampilkan sehingga mudah bagi user untuk memeriksa kebenaran program. Contoh pada VB. Formatted output ditampilkan secara terformat, seperti di C : printf(), delphi/VB : format()

Think!!!!

Jika anda disuruh menusun suatu bahasa pemrograman, Apa yang akan anda lakukan?

22

SKENARIO PERANCANGAN
1. 2. 3. 4. 5. 6. 7. 8. 9.

Tentukan apa yang diinginkan. Tentukan feature yang mungkin Tentukan desain dan sesuaikan dengan featurenya Tentukan rincian, parsing, dan error checking. Tuliskan user manual dan help. Evaluasilah, jika salah mulai lagi dari langkah 3. Jika sudah benar, optimisasilah dan uji segala kemungkinan. Cobakan kepada pengguna, tunggu reaksinya. Perbaiki bug dan mulai versi baru.

KONSEP dan NOTASI BAHASA

23

Konsep dan Notasi bahasa


Teknik Kompilasi merupakan kelanjutan dari konsep-konsep yang telah kita pelajari dalam teori bahasa dan automata Thn 56-59 Noam chomsky melakukan penggolongan tingkatan dalam bahasa, yaitu menjadi 4 class Penggolongan tingkatan itu disebut dengan hirarki Comsky 1959 Backus memperkenalkan notasi formal baru untuk syntax bahasa yang lebih spesifik Peter Nour (1960) merevisi metode dari syntax. Sekarang dikenal dengan BNF (backus Nour Form)

Konsep dan Notasi bahasa


Tata bahasa (grammar) adalah sekumpulan dari himpunan variabel-variabel, simbol-simbol terminal, simbol non-terminal, simbol awal yang dibatasi oleh aturan-aturan produksi Aturan produksi adalah pusat dari tata bahasa yang menspesifikasikan bagaimana suatu tata bahasa melakukan transformasi suatu string ke bentuk lainnya

24

Konsep dan Notasi bahasa


Syntax : suatu aturan yang memberitahu apakah sesuatu kalimat (string) adalah valid dalam program atau tidak Semantic : suatu aturan-aturan yang memberikan arti kepada program

Konsep dan Notasi bahasa


Penggolongan Chomsky Bahasa Mesin Automata
Tipe 3 Atau Regular Finite state automata (FSA) meliputi; deterministic Finite Automata (DFA) & Non Deterministic Finite Automata (NFA) Push Down Automata

Aturan Produksi
adalah simbol variabel maksimal memiliki sebuah
simbol variabel yang bila ada terletak diposisi paling kanan adalah simbol variabel

Tipe 2 Atau Contex Free Tipe 1 Atau Contex Sensitive Tipe 0 Atau Unrestricted/ Phase Structure/ natural language

Linier Bounded Automata

|| <= ||

Mesin Turing

Tidak ada Batasan

25

Keterangan

menyatakan simbol simbol yang berada di ruas kiri aturan produksi menyatakan simbol simbol yang berada di ruas kanan aturan produksi Simbol-simbol terdiri dari simbol terminal dan non terminal/variabel (masih bisa diturunkan lagi) Simbol terminal biasanya dinyatakan dengan huruf kecil, sementara non terminal dengan huruf besar

Aturan Produksi
Tipe O / Unrestricted: Tidak Ada batasan pada aturan produksi Abc De Tipe 1 / Context sensitive: Panjang string ruas kiri harus lebih kecil atau sama dengan ruas kanan Ab DeF CD eF Tipe 2 / Context free grammar: Ruas kiri haruslah tepat satu simbol variable B CDeFg D BcDe Tipe 3 / Regular: Ruas kanan hanya memiliki maksimal 1 simbol non terminal dan diletakkan paling kanan sendiri Ae A efg A efgH CD

26

Aturan produksi yang tidak legal !!!


Simbol E tidak boleh berada pada ruas kiri misal E Abd Aturan produksi yang ruas kirinya hanya memuat simbol terminal saja misal : a bd atau ab bd

Hirarki Comsky

Unrestricted Context Sensitive Context free Regular Regular

27

Contoh Tata Bahasa Sederhana


<program> <Statement-list> <statement> <Expression> <term> <factor> <var> <op1> <op2> <constant> BEGIN <Statement-list> END <statement> | <statement>; <statement-list> <var> := <expression> <term> | <term><op1> <expression> <factor> | <factor> <op2> <term> <var> | <constant>

A|B| .| Z +|-|= ^|*|/ <real_number> | <integer_part>

<real_number> <integer_part> . <fraction> <integer_part> <digit> | <integer_part> < digit> <fraction> <digit> | <digit> <fraction> <digit> 0|1|.|9

Contoh
Begin A := 1; B := A + 2 END

28

Diagram State
Digunakan untuk mendapatkan token, mempermudah melakukan analisis lexical Token adalah simbol terminal dari teori bahasa dan automata

Contoh : suatu tata bahasa memiliki himpunan simbol terminal/token berikut (ID, PLUS, MINUS, dan INT) token ID untuk karakter huruf a-z, 0-9, token INT untuk digit, token PLUS untuk Penjumlahan dan token MINUS untuk Pengurangan

PLUS

+ S -

huruf

ID
Huruf, Digit

Digit

MINUS

INT
Blank Digit

29

Notasi BNF (Backus-Nour Form)


Aturan Produksi bisa dinyatakan dengan notasi BNF BNF menggunakan abstraksi untuk struktur syntax ::= | <> {} sama identik dengan simbol sama dengan atau pengapit simbol non terminal Pengulangan dari 0 sampai n kali

Misalkan aturan produksi sbb: E T | T+E | T-E Ta Notasi BNFnya adalah E ::= <T> | <T> + <E> | <T> - <E> T ::= a

Diagram Syntax
Alat bantu (tools) dalam pembuatan parser/ analisis sintaksis Menggunakan simbol persegi panjang untuk non terminal Lingkaran untuk simbol terminal

Misalnya E T | T+E | T-E


E T

+ -

30

BNF: <Block> ::= BEGIN <statement> { SEMICOL <statement>} END

BEGIN

Statement

END

Kualitas dari Compiler


Waktu yang dibutuhkan untuk kompilasi; tergantung dari Algoritma compiler Pembuat (compilator) Compiler itu sendiri Kualitas dari obyek program yang dihasilkan Ukuran yang dihasilkan Fasilitas-fasilitas Integrasi yang lainnya IDE (integrated Development Environment)

31

A Simple Syntax-Directed Translator and Lexical analysis

32

Grammar
Grammar : Menggambarkan struktur hierarki dari konstruksi bahasa pemrograman
If ( expression ) statement else statement Terminals : if dan tanda kurung Non terminals : expression dan statement

Grammar
Grammar di spesifikan sebagai list produksi

list -> list + digit list -+ list - digit list - digit digit 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9

33

Parse tree
parse tree : untuk menunjukkan simbol dari sebuah grammar menjadi string.
A XYZ

Tree Terminology
A tree consists of one or more nodes. Exactly one node is the root. If node N is the parent of node M, then M is a child of N. The children of one node are called siblings. A node with no children is called a leaf. Other nodes those with one or more children are interior nodes. A descendant of a node N is either N itself,

34

Parse tree
Parse tree 9-5+2

Ambiguity
9-5+2 (9-5)+2 atau 9-(5+2)

35

Associativity of Operator
Left-associative 9-5-2 Right-associative a=b=c

Precedence of Operators
9+5*2 possible interpretations (9+5)*2 or 9+(5*2). Aturan aritmetika * dan / lebih tinggi dari + atau -

36

Analisis leksikal (lexical analysis)

Analisis Leksikal Apa itu?[1]


Masukan bagi sebuah compiler/interpreter adalah program sumber yang strukturnya berupa deretan dari karakterkarakter or rather unstructured Pemrosesan individual karakter yang ketidakefisiennya sangat tinggi Imagine recognizing while as w h i l e Oleh karenanya, hal pertama yang kita perhatikan adalah bentuk kode sumbernya

37

Analisis Leksikal Apa itu?[2]


A Lexical Analyzer (scanner) mengubah deretan karakterkarakter menjadi deretan token-token i.e. a scanner tokenizes the input Sebuah token (lexeme or syntactic unit) adalah komponen dasar leksikal dari program

Related term in lexical analysis

A token is a pair consisting of a token name and an optional attribute value. The token name is an abstract symbol representing a kind of lexical unit, e.g., a particular keyword, or a sequence of input characters denoting an identifier. The token names are the input symbols that the parser processes. A pattern is a description of the form that the lexemes of a token may take.
In the case of a keyword as a token, the pattern is just the sequence of characters that form the keyword. For identifiers and some other tokens, the pattern is a more complex structure that is matched by many strings.

38

Related term in lexical analysis


A lexeme is a sequence of characters in the source program that matches the pattern for a token and is identified by the lexical analyzer as an instance of that token.

Analisis LeksikalToken[3]
Token adalah level entitas yang paling rendah dalam diagram sintaks Jenis-jenis token antara lain: identifiers (e.g. variable & function names, etc.) keywords (like while, if, function, etc.) operators (like +, -, *, ++, +=, etc.) literals (constant values like 27.3, Hello, etc.) punctuation (like ;, :, ,, etc.)

39

Lexical Analysis - Contoh


Contoh 1: ada urutan karakter yang disebut dengan statement fahrenheit := 32 + celcius * 1.8,
Maka akan diterjemahkan kedalam token-token seperti dibawah ini

identifier operator integer Identifier real / float

fahrenheit := 32 + celcius * 1.8

operator penjumlahan operator perkalian

Lexical Analysis - Contoh 2


Setiap bentuk dari token di representasi sebagai angka dalam bentuk internal, dan angkanya adalah unik Misalnya nilai 1 untuk variabel, 2 untuk konstanta, 3 untuk label dan 4 untuk operator, dst Contoh instruksi :
Kondisi : IF A > B THEN C = D;

Maka scanner akan mentransformasikan kedalam token-token, sbb:

40

Lexical Analysis - Contoh 2

Kondisi : IF A > 1

3 26 20 15

B THEN C D ;

1 21 1 1 27

Token-token ini sebagai inputan untuk syntax Analyser , token-token ini bisa berbentuk pasangan item. Dimana Item pertama menunjukkan alamat atau lokasi dari token pada tabel simbol. Item kedua adalah representasi internal dari token. Semua token direpresentasikan dengan informasi yang panjangnya tetap (konstan), suatu alamat (address atau pointer) dan sebuah integer (bilangan bulat)

Scanner
Scanner berfungsi melakukan analisis leksikal, yaitu mengidentifikasi semua simbolyang membangun suatu bahasa pada suatu source code. Tugas utamanya adalah memecah tiap baris source code menjadi token-token. Pekerjaan analisis leksikal:
Membuang komentar Menyeragamkan menjadi huruf kecil semua atau sebaliknya Membuang white space Meninterpretasi kompiler directive Berkomunikasi dengan symbol table Membuat listing

41

Pekerjaan Scanner (1)


Membuang komentar
Komentar biasanya ditulis oleh programmer untuk mempermudah dalam mempelajari program yang telah dibuat. Dalam setiap bahasa pemrogramman selalu disediakan simbol untuk mengawali dan mengakhiri komentar. Scanner pada analisis leksikal harus dapat mengenali bagian awal dan akhir setiap komentar supaya bisa dibuang atau tidak ikut dalam proses kompilasi. Contoh : /* ini adalah commentar */

Pekerjaan Scanner (2)


Menyeragamkan huruf
Bagian penganalisis leksikal bertugas menyeragamkan jenis huruf agar identifier dengan penulisan huruf besar dan kecil tidak dianggap berbeda. Contoh: Untuk bahasa permrograman yang bersifat non-case sensitive, identifier arraysize dan ArraySize dianggap sama.

42

Pekerjaan Scanner(3)
Membuang white space
White space adalah karakter yang tercetak kosong di printer / monitor. Karakter tersebut bisa berupa blank, space, tab, carriage return (enter), line feed). Pada bahasa pemrograman yang modern white space digunakan untuk memisahkan antara token satu dengan yang lainnya. Oleh karena itu setelah token-token diperoleh maka karakter tersebut dibuang. Contoh: int a = b * c;

Pekerjaan Scanner(4)
Menginterpretasi kompiler directive
Directive adalah: program yang digunakan untuk mengontrol operasi kompiler.Beberapa kompiler menggunakan directive ini. Pada saat scanning, bila penganalisis leksikal menemukan tanda directive maka program directive ikut dianalisis. Contoh: #include <stdio.h>
Artinya: file program directive yang bernama stdio.h ikut dianalisis.

43

Pekerjaan Scanner(5)
Berkomunikasi dengan symbol table
Symbol table adalah tabel yang digunakan untuk menyimpan setiap identifier buatan. Yang disimpan dalam tabel tersebut adalah nama, jenis dan ukurannya. Pada bahasa pemrogramman yang sangat terikat dengan tipe identifier, tipe identifer harus sudah didefinisikan sebelum identifier digunakan. Pada saat menemukan identifier, penganalisis leksikal selalu memeriksa tipenya, apakah sudah terdefinisi atau belum. Contoh: char a[10] = {a, b, .... ,j};

Pekerjaan Scanner(6)
Membuat listing
Kebanyakan kompiler membuat listing dari source code yang disertai dengan nomor baris, jumlah baris dan pesan-pesan kesalahan dan peringatan. Tujuannya adalah untuk memberikan versi tertentu pada source code tersebut.

44

Analisis Sintaktik

Definisi Sintak
Sintak (syntax) adalah susunan kalimat dan aturanaturan dalam membentuk kalimat yang disebut dengan grammar. Penganalisis sintak dalam bidang kompilasi sering disebut dengan parser. Untuk menganalisis kalimat biasanya digunakan bantuan parse-tree.

45

Contoh grammar
SENTENCE

<noun phrase>

<verb phrase>

<article>

<noun>

<verb>

<noun phrase>

<article>

<noun>

The

dog

eat

the

chicken

Analisis Sintaks (Parser) Analisis Sintaks bergantung pada bahasa pemrograman


masing-masing. Karena masing-masing bahasa pemrograman memiliki bentuk sintaks yang berbedabeda. Analisis Sintaks memiliki input berupa token yang berasal dari scanner dan source code. Analisis Sintaks (Parser) bertugas mengecek kebenaran sintaks dan menghasilkan & memproses pohon sintaks. Sintaks adalah aturan-aturan bahasa dalam suatu bahasa pemrograman tertentu.

46

Parser Parser akan membentuk Pohon Sintaks (Parse Sebuah


Tree). Sebuah tree adalah suatu graph terhubung yang tidak sirkuler dan memiliki satu buah root (akar) dan dari situ memiliki lintasan ke setiap simpul (daun/leaf). Parse Tree berfungsi untuk menggambarkan bagaimana memperoleh suatu string dengan cara menurunkan simbol-simbol variabel menjadi simbol-simbol terminal, sampai tidak ada simbol yang belum tergantikan.

Tata Bahasa Bebas Konteks

Untuk mengimplementasikan Parser diperlukan TBBK (Context Free Grammar) TBBK adalah sekumpulan simbol-simbol variabel (nonterminal), yang masing-masing merepresentasikan bahasa. Bahasa yang direpresentasikan dengan simbol-simbol non terminal tersebut diproses secara rekursif dengan suatu aturan-aturan yang disebut aturan produksi. Tata bahasa bebas konteks (tipe 2) memiliki elemen:
Terminal : simbol dasar yang tidak dapat diturunkan lagi. Terminal disebut juga token. Non terminal : variabel sintaktik yang masih dapat diturunkan lagi.

47

TBBK (2)
Contoh TBBK untuk pasangan kurung yang selalu berpasangan:
S => R R => {} R => (R) R => RR

Contoh TBBK untuk palindrom:


S => R R => {} | a | b R => aRa | bRb

Contoh TBBK lain


S => AB A => aA | a B => bB | b

TBBK (3)
Contoh TBBK:
S => aS S => bT T => a

Maka misalkan untuk string aaba maka TBBK diatas dapat diturunkan menjadi :
S => aS S => aaS S => aabT S => aaba

Artinya string aabacocok dan diterima oleh TBBK diatas. Misalkan untuk string aba terdapat aturan produksi sebagai berikut:
S => aS S => abT S=> aba

Pohon Sintaks :

48

Contoh TBBK (1)


Contoh:
S => aS | b S => bT T => a | bS

Untuk string abbaab:


S => aS S => abT S => abbS S => abbaS S => abbaaS S => abbaab

Pohon Sintaks ?

Contoh TBBK (2)


Contoh:
S => AB A => aA | a B => bB | b

Untuk string aabbb


S => AB S => aAB S => aaB S => aabB S => aabbB S => aabbb

Pohon Sintaks?

49

Contoh Parsing dalam Bhs Inggris


S SP VP NP V O A N : Sentence : Subject Phrase :Verb Phrase : Noun Phrase :Verb : Object : Article : Noun

Parsing Inggris (2)


Aturan Produksi: S => SP VP SP => A N A => a A => the N => monkey N => banana N => cat N => mouse N => tree VP => V O V => ate V => climb O => NP NP => A N

50

Parsing Inggris (3)


Penurunan untuk the cat ate a mouse
S => SP VP
=> A N VP => the N VP => the cat V O => the cat ate O => the cat ate NP => the cat ate A N => the cat ate a N => the cat ate a mouse

Apakah berlaku untuk:


the cat ate a banana, the monkey climbs a tree, the banana ate a cat?

Cara Penurunan
Penurunan dapat dilakukan :
Dengan penurunan terkiri : nonterminal terkiri yang disubstitusi. Dengan penurunan terkanan : nonterminal terkanan yang disubstitusi.

Contoh1:
S => aAS | a A => SbA | ba Untuk string aabbaa: Dengan penurunan terkiri : S => aAS => aSbAS => aabAS => aabbaS => aabbaa.
Bagaimana Parse Tree?

Dengan penurunan kanan : S => aAS => aAa=> aSbAa => aSbbaa => aabbaa.
Bagaimana Parse Tree?

51

Penurunan (2)
Contoh 2:
Misal TBBK : E => E + E | E * E | (E) | -E | id String -(id + id)diterima karena : E => -E => -(E) => -(E+E) => -(id +E) => -(id + id) Exercise: Is id-ida sentence of TBBK? No Is id+ida sentence of TBBK? Yes

Penurunan (3)
Contoh 3:

52

Why TBBK for Parser?


Mendukung tata bahasa yang bersifat rekursif Spesifikasi bahasa pemrograman menggunakanTBBK Contoh : (x + 2) * 3
Expr => expr op expr Expr => (expr) Expr => -expr Expr => id op => + op => op =>* op => / op => ^

Setiap RE dapat dideskripsikan dengan TBBK Contoh:


(a|b)*abb A => aA | bA | abb

Parsing
Proses Parsing merupakan tahapan yang berfungsi untuk memeriksa urutan kemunculan token. Di dalam mengimplementasikan sebuah metode parsing perlu diperhatikan :
Rentang waktu eksekusi Penanganan kesalahan

53

Metode Parsing
Top Down
Metode ini menelusuri pohon, dari root menuju ke daun (leaf). Metode ini meliputi:
Backtracking Mode : Metode Brute Force Non Backtracking Mode : Recursive Descent Parser dan Predictive Parser

Top Down memparsing tree secara pre order. Contoh :


S => cAd A => ab | a

Untuk input cad Pohon Sintaks ?

Metode Parsing (2)


Bottom Up
Metode ini menelusuri pohon dari daun menuju ke root. Biasanya mengurangi string/daun sampai pada akarnya. Contoh :
S => aABe A => Abc | b B => d

Maka untuk string abbcde


abbcde aAbcde aAde aABe S

54

Metode Parsing lainnya


Metode Brutal Force
Metode ini akan melakukan substitusi semua simbol non terminal yang ada. Jika terjadi salah parsing (atau tidak cocok), maka dapat dilakukan backtracking. Contoh:
S => aAd | aB A => b | c B => ccd | ddc

Misal ingin memparsing : accd.


S => aAd S => abd : gagal, maka dilakukan backtrack: S => acd : gagal, maka dilakukan backtrack: S => aB S => accd : berhasil!

Metode Parsing lainnya (2)


Kelemahan Brutal Force :
Mencoba semua aturan produksi sehingga akan menjadi lambat Sulit melakukan backtracking dan pemulihan kesalahan Memakan banyak memori karena perlu mencatat lokasi backtrack

55

TBBK Rekursif Kiri


TBBK yang memiliki simbol terminal di ruas kanan dari simbol non terminal yang ada di ruas kiri. Simbol non terminal itu terletak di ruas kiri terdepan. TBBK ini juga tidak memiliki kemungkinan aturan produksi lain yang berupa simbol terminal. Contoh :
S => Sd A => Aad

Menyebabkan pohon tumbuh ke kiri

Contoh Pohon
S => aAc A => Ab | {}

56

Penghilangan Rekursif Kiri


Pisahkan aturan produksi yang rekursif kiri dengan yang tidak.
Yang rekursif kiri :
A => Aa1 | Aa2 | Aa3 |

Yang tidak rekursif kiri, termasuk produksi epsilon:


A => b1 | b2 | b3 |

Kita bisa tentukan a1, a2, a3, dan b1, b2, b3, Lakukan penggantian aturan produksi yang rekursif kiri menjadi:
A => b1Z | b2Z | b3Z | Z => a1 | a2 | a3 | Z => a1Z | a2Z | a3Z |

Penggantian itu dilakukan untuk setiap aturan produksi dengan simbol di ruas kiri yang sama. Bisa muncul simbol variabel baru Z1, Z2, Z3sesuai dengan banyaknya variabel yang menghasilkan produksi yang rekursif kiri. Hasil akhir berupa aturan produksi pengganti ditambah dengan aturan produksi semula yang tidak rekursif kiri.

Penghilangan Rekursif Kiri (2)


Contoh : S => Sab | aSc | dd | ff | Sbd
Aturan produksi yang rekursif kiri :
S => Sab | Sbd

Kita simbolkan :
a1 = ab dan a2 = bd

Aturan produksi yang tidak rekursif kiri:


S => aSc | dd | ff

Maka simbolkan:
b1 = aSc, b2 = dd, dan b3 = ff

Penggantian rekursif kiri S => Sab | Sbd menjadi


S => aScZ1 | ddZ1 | ffZ1 Z1 => ab | bd Z1 => abZ1 | bdZ1
Hasil akhir: S => aSc | dd | ff S => aScZ1 | ddZ1 | ffZ1 Z1 => ab | bd Z1 => abZ1 | bdZ1

57

Contoh lain:
S => Sab | Sb | cA A => Aa | a | bd Yang rekursif : S => Sab | Sb dan A => Aa Yang tidak: S => cA dan A => a | bd Pergantian:
Untuk S => Sab | Sb
S => cAZ1 Z1 => ab | b Z1 => abZ1 | bZ1

Untuk A => Aa
A => aZ2 | bdZ2 Z2 => a Z2 => aZ2

Hasil: S => cA A => a | bd S => cAZ1 Z1 => ab | b Z1 => abZ1 | bZ1 A => aZ2 | bdZ2 Z2 => a Z2 => aZ2

Contoh lain:
S => aA | b | cS A => Sd | e Jadi:
S => aA | b | cS A => aAd | bd | cSd | e

#rekursif kiri

58

TBBK Rekursif Kanan


TBBK Rekursif Kanan: TBBK yang memiliki simbol non terminal di ruas kanan dari simbol non terminal yang ada di ruas kiri. Simbol non terminal itu terletak di ruas kanan terbelakang. TBBK ini juga tidak memiliki kemungkinan aturan produksi lain yang berupa simbol terminal. Contoh:
S => dS B => adB Membuat pohon sintaks melebar ke kanan

Transformasi TBBK
Dimaksudkan untuk memperoleh TBBK yang memenuhi kriteria-kriteria tertentu yang lebih efisien. Transformasi boleh dilakukan asalkan tidak mengganggu maksud dan bahasa yang dihasilkan dari TBBK baru. TBBK dapat disederhanakan dengan:
Penghilangan produksi useless Penghilangan produksi unit Penghilangan produksi himpunan kosong

59

Transformasi TBBK
Penyederhanaan TBBK bertujuan untuk melakukan pembatasan sehingga tidak menghasilkan pohon sintaks yang rumit dan tidak berarti. Contoh :
S => AB | a A => a.

Kelemahannya adalah aturan produksi S => AB tidak berarti (useless) karena B tidak memiliki penurunan.

TBBK Kompleks
Contoh lain:
S => A A => B B => C C => D D = a |A

Kelemahan :
Jalannya terlalu panjang, padahal berujung pada S => a Produksi D => A juga dapat menyebabkan kerumitan (rekursif)

60

Produksi Useless
Adalah produksi yang memuat simbol variabel yang tidak memiliki penurunan yang akan menghasilkan terminal seluruhnya / hasil akhir menuju terminal
Produksi ini tidak berguna karena bila diturunkan tidak akan selesai (masih ada simbol variabel yang tersisa). Produksi ini juga tidak akan dicapai dengan cara apapun sehingga produksi ini redundan.

Produksi Useless (2)


Contoh :
S => aSa | Abd | Bde A => Ada B => BBB | a

Dapat dilihat bahwa:Simbol A tidak memiliki penurunan yang menuju terminal sehingga bisa dihilangkan.
Maka A => Ada dihilangkan dan S => Abd tidak memiliki penurunan

Sehingga dapat disederhanakan sebagai berikut:


S => aSa | Bde B => BBB | a

61

Produksi Useless (3)


Contoh lain:
S => Aa | B A => ab | D B => b | E C => bb E => aEa

Bisa dilihat bahwa:


Pada A => D, simbol D tidak mengalami penurunan. Pada C => bb, bila kita mencoba melakukan penurunan dari S, tidak akan mencapai C. Simbol E => aEa tidak memiliki terminal, sehingga konsekuensinya B => E juga tidak akan selesai.

Produksi Useless (4)


S => Aa | B A => ab | D B => b | E C => bb E => aEa

Dari aturan produksi diatas, maka aturan produksi yang useless:


A => D C => bb E => aEa B => E

Maka TBBK tersebut dapat disederhanakan menjadi:


S => Aa | B A => ab B => b

62

Produksi Himpunan Kosong ()


Produksi adalah produksi yang berbentuk:
A =>

Penghilangan produksi dilakukan dengan melakukan penggantian semua produksi yang memuat variabel yang bisa menuju produksi . Contoh :
S => bcAd A =>

Karena A => , maka variabel A bisa ditiadakan, sehingga:


S => bcd

Produksi Himpunan Kosong (2)


Contoh:
S => bcAd A => bd |

Karena A => bukan satu-satunya produksi dari A, maka hasil penyederhanaan:


S => bcAd | bcd A => bd

63

Produksi Himpunan Kosong (3)


Contoh:
S => AaCD A => CD | AB B => b | C => d | D =>

Variabel yang nullable () adalah B, C, dan D Kita lihat A => CD maka berarti akan sama dengan A => , Karena D hanya menurunkan , D => maka kita sederhanakan D dulu:
S => AaCD menjadi S => AaC A => CD menjadi A => C D => kita hapus.

Produksi Himpunan Kosong (4)


Kemudian variabel B dan C juga menurunkan , walapun bukan satu-satunya penurunan, sehingga:
A => AB menjadi A => AB | A S => AaC menjadi S => AaC | Aa B => dan C => dihapus

Sehingga hasil akhir :


S => AaC | Aa A => C | AB | A B => b C => d

64

Produksi Himpunan Kosong (5)


Contoh:
S => aSbS | bSaS |

Maka hilangkan S =>


S => aSbS | bSaS | aSb | abS | ab | bSa | baS | ba

65

Anda mungkin juga menyukai