DAFTAR PUSTAKA
Compilers: Principles, Techniques, and Tools (commonly known as the Dragon Book)
TUJUAN
TUJUAN
Materi
Teknik Kompilasi
Sejarah Tujuan Komponen
Analisa Leksikal
Konsep Model Regular Expession Finite-state machine
Analisa Sintaks
Pengenalan Grammar Model Grammar Parsing : Top Down Parsing Bottom Up
Materi
Deklarasi Attributes
Analisa Semantik
Code Optimizer
Flow graphs Data-flow frameworks
Materi
Kompilasi :
Proses mengabungkan serta menterjermahkan sesuatu (source program) menjadi bentuk lain (translator)
Compile :
To translate a program written in a high-level programming language into machine language.
Sejarah
Kompilator pertama yang dibuat adalah kompilator untuk bahasa FORTRAN Dikembangkan dengan memakan sejumlah tenaga ahli yang setara dengan pekerjaan yangdilakukan oleh 18 orang. Dengan adanya program bantu dan tata cara pembentukan yang sistematis dan tertata dengan baik serta pendefinisian struktur bahasa yang cermat, maka suatu kompilator untuk bahasa yang terstruktur seperti PASCAL atau C dapat dikembangkan.
Source code dan data diproses bersamaan. Contoh: BASICA, SPSS, DBASE III.
Compiler Assembler
Source Code adalah bahasa tingkat tinggi. Object Code adalah bahasa mesin atau assembly. Source code dan data diproses tidak bersamaan. Contoh: PASCAL, C.
Source Code adalah bahasa Assembly Object Code adalah bahasa mesin. Contoh: Turbo Assembler.
Compiler
Source code adalah bahasa tingkat tinggi, object code adalah bahasa mesin atau bahasa assembly. Source code dan data diproses berbeda
Data
Source code Compiler Execution
Hasil
Interpreter
Object Code
Interpreter tidak menghasilkan bentuk object code, tetapi hasil translasinya hanya dalam bentuk internal, dimana program induk harus selalu ada-berbeda dengan compiler
Translator : Compiler
Source Program
Compiler
OBJECT PROGRAM
ERROR MESSAGES
COMPILER vs INTERPRETER
Compiler bisa menangkap berbagai kesalahan dalam 1 program kode sumber secara sekaligus. Kalau Interpreter cuma bisa menangkap beberapa kesalahan pada 1 baris kode sumber pada suatu saat Biasanya program yang dihasilkan compiler lebih cepat dari waktu pelaksanaan program dengan interpreter. Kalau compiler menghasilkan kode antara (misal object code) dan harus digabungkan / dilink menjadi bentuk yang dapat dijalankan mesin / komputer (executable). Kalau Interpreter biasanya tidak menghasilkan kode antara. Kalau hendak menjalankan program hasil kompilasi bisa dilakukan tanpa kode sumber. Kalau interpreter butuh kode sumber.
COMPILER vs INTERPRETER
Kalau dengan kompiler, maka pembuatan kode yang bisa dijalankan mesin dilakukan dalam 2 tahap terpisah, yaitu parsing / pembuatan kode objek dan linking / penggabungan kode objek dengan library. Kalau interpreter tidak ada proses terpisah. Kalau compiler membutuhkan linker untuk menggabungkan kode objek dengan berbagai macam library demi menghasilkan suatu kode yang bisa dijalankan oleh mesin. Kalau interpreter tidak butuh linker. .
COMPILER vs INTERPRETER
Interpreter cocok untuk membuat / menguji coba modul / sub-routine / program-program kecil. Kalau compiler agak repot karena untuk mengubah suatu modul / kode objek kecil, maka harus dilakukan proses linking / penggabungan kembali semua objek dengan library yang diperlukan. Pada kompiler bisa dilakukan optimisasi / peningkatan kwalitas kode yang bisa dijalankan. Ada yang dioptimasi supaya lebih cepat, ada yang supaya lebih kecil, ada yang dioptimasi untuk sistem dengan banyak processor. Kalau interpreter susah / tidak bisa dioptimasikan.
2.
analisa : program sumber dipecah-pecah dan dibentuk menjadi bentuk antara (intermediate representation) sintesa : membangun program sasaran yang diinginkan dari bentuk antara
Penganalisa Leksikal
membaca program sumber, karakter demi karakter. Sederetan (satu atau lebih) karakter dikelompokkan menjadi satu kesatuan mengacu kepada pola kesatuan kelompok karakter (token) yang ditentukan dalam bahasa sumber. Kelompok karakter yang membentuk sebuah token dinamakan lexeme untuk token tersebut. Setiap token yang dihasilkan disimpan di dalam tabel simbol. Sederetan karakter yang tidak mengikuti pola token akan dilaporkan sebagai token tak dikenal (unidentified token)
Penganalisa Sintaks
memeriksa kesesuaian pola deretan token dengan aturan sintaks yang ditentukan dalam bahasa sumber. Sederetan token yang tidak mengikuti aturan sintaks akan dilaporkan sebagai kesalahan sintaks (sintax error). Secara logika deretan token yang bersesuaian dengan sintaks tertentu akan dinyatakan sebagai pohon parsing (parse tree)
10
Penganalisa Semantik
memeriksa token dan ekspresi dari batasan-batasan yang ditetapkan. Batasan-batasan tersebut misalnya : a. panjang maksimum token identifier adalah 8 karakter, b. panjang maksimum ekspresi tunggal adalah 80 karakter, c. nilai bilangan bulat adalah -32768 s/d 32767, d. operasi aritmatika harus melibatkan operan-operan yang bertipe sama
11
Pengoptimal kode
melakukan optimasi (penghematan space dan waktu komputasi), jika mungkin, terhadap kode antara
12
Contoh Kompilas i
13
Mesin View
Pembuatan compiler
Bahasa mesin Sangat sukar dan sangat sedikit kemungkinannya untuk membuat compiler dengan bahasa ini, karena manusia susah mempelajari bahasa mesin, Sangat tergantung pada mesin, Bahasa Mesin kemungkinan digunakan pada saat pembuatan Assembler
14
Pembuatan compiler
Assembly Hasil dari program mempunyai Ukuran yang relatif kecil Sulit dimengerti karena statement/perintahnya singkatsingkat, butuh usaha yang besar untuk membuat Fasilitas yang dimiliki terbatas
Pembuatan compiler
Bahasa Tingkat Tinggi (high level language) Lebih mudah dipelajari Fasilitas yang dimiliki lebih baik (banyak) Memiliki ukuran yang relatif besar, misal membuat compiler pascal dengan menggunakan bahasa C Untuk mesin yang berbeda perlu dikembangkan tahapan-tahapan tambahan. Misal membuat compiler C pada Dos bedasarkan compiler C pada unix
15
BAHASA SUMBER
16
17
18
Berdasarkan rancangan bahasa di atas, perhatikan hal-hal berikut: Kita tidak bisa mengganti kata Budi dengan 8udi sebagaimana kita tidak bisa mengganti token start dengan ?tart. Kita juga tidak bisa merubah susunan kata-kata menjadi Budi sebuah menendang bola sebagaimana kita tidak boleh merubah susunan token-token menjadi 9.0 if < a2 then b2:= a2. Demikian pula kita tidak boleh mengganti kata Budi dengan lemari sebagaimana kita tidak boleh mengganti B[i]*sin(i*pi/16.0) dengan B*sin(i*pi/16.0).
19
20
Struktur Ekspresi
Metode pengurutan evaluasi dalam ekspresi : Explicit Bracketing Operator binding Binding adalah asosiasi antara atribut dan entity atau antara operasi dan simbol. Binding time adalah waktu yang dialokasikan untuk menyatukan variable dengan nilainya.
Struktur Data
Empat aspek dalam struktur data Deklarasi data Tipe data yang tersedia Alokasi storage Lingkup variabel
21
Struktur I/O
Format free langsung ditampilkan sehingga mudah bagi user untuk memeriksa kebenaran program. Contoh pada VB. Formatted output ditampilkan secara terformat, seperti di C : printf(), delphi/VB : format()
Think!!!!
Jika anda disuruh menusun suatu bahasa pemrograman, Apa yang akan anda lakukan?
22
SKENARIO PERANCANGAN
1. 2. 3. 4. 5. 6. 7. 8. 9.
Tentukan apa yang diinginkan. Tentukan feature yang mungkin Tentukan desain dan sesuaikan dengan featurenya Tentukan rincian, parsing, dan error checking. Tuliskan user manual dan help. Evaluasilah, jika salah mulai lagi dari langkah 3. Jika sudah benar, optimisasilah dan uji segala kemungkinan. Cobakan kepada pengguna, tunggu reaksinya. Perbaiki bug dan mulai versi baru.
23
24
Aturan Produksi
adalah simbol variabel maksimal memiliki sebuah
simbol variabel yang bila ada terletak diposisi paling kanan adalah simbol variabel
Tipe 2 Atau Contex Free Tipe 1 Atau Contex Sensitive Tipe 0 Atau Unrestricted/ Phase Structure/ natural language
|| <= ||
Mesin Turing
25
Keterangan
menyatakan simbol simbol yang berada di ruas kiri aturan produksi menyatakan simbol simbol yang berada di ruas kanan aturan produksi Simbol-simbol terdiri dari simbol terminal dan non terminal/variabel (masih bisa diturunkan lagi) Simbol terminal biasanya dinyatakan dengan huruf kecil, sementara non terminal dengan huruf besar
Aturan Produksi
Tipe O / Unrestricted: Tidak Ada batasan pada aturan produksi Abc De Tipe 1 / Context sensitive: Panjang string ruas kiri harus lebih kecil atau sama dengan ruas kanan Ab DeF CD eF Tipe 2 / Context free grammar: Ruas kiri haruslah tepat satu simbol variable B CDeFg D BcDe Tipe 3 / Regular: Ruas kanan hanya memiliki maksimal 1 simbol non terminal dan diletakkan paling kanan sendiri Ae A efg A efgH CD
26
Hirarki Comsky
27
<real_number> <integer_part> . <fraction> <integer_part> <digit> | <integer_part> < digit> <fraction> <digit> | <digit> <fraction> <digit> 0|1|.|9
Contoh
Begin A := 1; B := A + 2 END
28
Diagram State
Digunakan untuk mendapatkan token, mempermudah melakukan analisis lexical Token adalah simbol terminal dari teori bahasa dan automata
Contoh : suatu tata bahasa memiliki himpunan simbol terminal/token berikut (ID, PLUS, MINUS, dan INT) token ID untuk karakter huruf a-z, 0-9, token INT untuk digit, token PLUS untuk Penjumlahan dan token MINUS untuk Pengurangan
PLUS
+ S -
huruf
ID
Huruf, Digit
Digit
MINUS
INT
Blank Digit
29
Misalkan aturan produksi sbb: E T | T+E | T-E Ta Notasi BNFnya adalah E ::= <T> | <T> + <E> | <T> - <E> T ::= a
Diagram Syntax
Alat bantu (tools) dalam pembuatan parser/ analisis sintaksis Menggunakan simbol persegi panjang untuk non terminal Lingkaran untuk simbol terminal
+ -
30
BEGIN
Statement
END
31
32
Grammar
Grammar : Menggambarkan struktur hierarki dari konstruksi bahasa pemrograman
If ( expression ) statement else statement Terminals : if dan tanda kurung Non terminals : expression dan statement
Grammar
Grammar di spesifikan sebagai list produksi
list -> list + digit list -+ list - digit list - digit digit 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9
33
Parse tree
parse tree : untuk menunjukkan simbol dari sebuah grammar menjadi string.
A XYZ
Tree Terminology
A tree consists of one or more nodes. Exactly one node is the root. If node N is the parent of node M, then M is a child of N. The children of one node are called siblings. A node with no children is called a leaf. Other nodes those with one or more children are interior nodes. A descendant of a node N is either N itself,
34
Parse tree
Parse tree 9-5+2
Ambiguity
9-5+2 (9-5)+2 atau 9-(5+2)
35
Associativity of Operator
Left-associative 9-5-2 Right-associative a=b=c
Precedence of Operators
9+5*2 possible interpretations (9+5)*2 or 9+(5*2). Aturan aritmetika * dan / lebih tinggi dari + atau -
36
37
A token is a pair consisting of a token name and an optional attribute value. The token name is an abstract symbol representing a kind of lexical unit, e.g., a particular keyword, or a sequence of input characters denoting an identifier. The token names are the input symbols that the parser processes. A pattern is a description of the form that the lexemes of a token may take.
In the case of a keyword as a token, the pattern is just the sequence of characters that form the keyword. For identifiers and some other tokens, the pattern is a more complex structure that is matched by many strings.
38
Analisis LeksikalToken[3]
Token adalah level entitas yang paling rendah dalam diagram sintaks Jenis-jenis token antara lain: identifiers (e.g. variable & function names, etc.) keywords (like while, if, function, etc.) operators (like +, -, *, ++, +=, etc.) literals (constant values like 27.3, Hello, etc.) punctuation (like ;, :, ,, etc.)
39
40
Kondisi : IF A > 1
3 26 20 15
B THEN C D ;
1 21 1 1 27
Token-token ini sebagai inputan untuk syntax Analyser , token-token ini bisa berbentuk pasangan item. Dimana Item pertama menunjukkan alamat atau lokasi dari token pada tabel simbol. Item kedua adalah representasi internal dari token. Semua token direpresentasikan dengan informasi yang panjangnya tetap (konstan), suatu alamat (address atau pointer) dan sebuah integer (bilangan bulat)
Scanner
Scanner berfungsi melakukan analisis leksikal, yaitu mengidentifikasi semua simbolyang membangun suatu bahasa pada suatu source code. Tugas utamanya adalah memecah tiap baris source code menjadi token-token. Pekerjaan analisis leksikal:
Membuang komentar Menyeragamkan menjadi huruf kecil semua atau sebaliknya Membuang white space Meninterpretasi kompiler directive Berkomunikasi dengan symbol table Membuat listing
41
42
Pekerjaan Scanner(3)
Membuang white space
White space adalah karakter yang tercetak kosong di printer / monitor. Karakter tersebut bisa berupa blank, space, tab, carriage return (enter), line feed). Pada bahasa pemrograman yang modern white space digunakan untuk memisahkan antara token satu dengan yang lainnya. Oleh karena itu setelah token-token diperoleh maka karakter tersebut dibuang. Contoh: int a = b * c;
Pekerjaan Scanner(4)
Menginterpretasi kompiler directive
Directive adalah: program yang digunakan untuk mengontrol operasi kompiler.Beberapa kompiler menggunakan directive ini. Pada saat scanning, bila penganalisis leksikal menemukan tanda directive maka program directive ikut dianalisis. Contoh: #include <stdio.h>
Artinya: file program directive yang bernama stdio.h ikut dianalisis.
43
Pekerjaan Scanner(5)
Berkomunikasi dengan symbol table
Symbol table adalah tabel yang digunakan untuk menyimpan setiap identifier buatan. Yang disimpan dalam tabel tersebut adalah nama, jenis dan ukurannya. Pada bahasa pemrogramman yang sangat terikat dengan tipe identifier, tipe identifer harus sudah didefinisikan sebelum identifier digunakan. Pada saat menemukan identifier, penganalisis leksikal selalu memeriksa tipenya, apakah sudah terdefinisi atau belum. Contoh: char a[10] = {a, b, .... ,j};
Pekerjaan Scanner(6)
Membuat listing
Kebanyakan kompiler membuat listing dari source code yang disertai dengan nomor baris, jumlah baris dan pesan-pesan kesalahan dan peringatan. Tujuannya adalah untuk memberikan versi tertentu pada source code tersebut.
44
Analisis Sintaktik
Definisi Sintak
Sintak (syntax) adalah susunan kalimat dan aturanaturan dalam membentuk kalimat yang disebut dengan grammar. Penganalisis sintak dalam bidang kompilasi sering disebut dengan parser. Untuk menganalisis kalimat biasanya digunakan bantuan parse-tree.
45
Contoh grammar
SENTENCE
<noun phrase>
<verb phrase>
<article>
<noun>
<verb>
<noun phrase>
<article>
<noun>
The
dog
eat
the
chicken
46
Untuk mengimplementasikan Parser diperlukan TBBK (Context Free Grammar) TBBK adalah sekumpulan simbol-simbol variabel (nonterminal), yang masing-masing merepresentasikan bahasa. Bahasa yang direpresentasikan dengan simbol-simbol non terminal tersebut diproses secara rekursif dengan suatu aturan-aturan yang disebut aturan produksi. Tata bahasa bebas konteks (tipe 2) memiliki elemen:
Terminal : simbol dasar yang tidak dapat diturunkan lagi. Terminal disebut juga token. Non terminal : variabel sintaktik yang masih dapat diturunkan lagi.
47
TBBK (2)
Contoh TBBK untuk pasangan kurung yang selalu berpasangan:
S => R R => {} R => (R) R => RR
TBBK (3)
Contoh TBBK:
S => aS S => bT T => a
Maka misalkan untuk string aaba maka TBBK diatas dapat diturunkan menjadi :
S => aS S => aaS S => aabT S => aaba
Artinya string aabacocok dan diterima oleh TBBK diatas. Misalkan untuk string aba terdapat aturan produksi sebagai berikut:
S => aS S => abT S=> aba
Pohon Sintaks :
48
Pohon Sintaks ?
Pohon Sintaks?
49
50
Cara Penurunan
Penurunan dapat dilakukan :
Dengan penurunan terkiri : nonterminal terkiri yang disubstitusi. Dengan penurunan terkanan : nonterminal terkanan yang disubstitusi.
Contoh1:
S => aAS | a A => SbA | ba Untuk string aabbaa: Dengan penurunan terkiri : S => aAS => aSbAS => aabAS => aabbaS => aabbaa.
Bagaimana Parse Tree?
Dengan penurunan kanan : S => aAS => aAa=> aSbAa => aSbbaa => aabbaa.
Bagaimana Parse Tree?
51
Penurunan (2)
Contoh 2:
Misal TBBK : E => E + E | E * E | (E) | -E | id String -(id + id)diterima karena : E => -E => -(E) => -(E+E) => -(id +E) => -(id + id) Exercise: Is id-ida sentence of TBBK? No Is id+ida sentence of TBBK? Yes
Penurunan (3)
Contoh 3:
52
Parsing
Proses Parsing merupakan tahapan yang berfungsi untuk memeriksa urutan kemunculan token. Di dalam mengimplementasikan sebuah metode parsing perlu diperhatikan :
Rentang waktu eksekusi Penanganan kesalahan
53
Metode Parsing
Top Down
Metode ini menelusuri pohon, dari root menuju ke daun (leaf). Metode ini meliputi:
Backtracking Mode : Metode Brute Force Non Backtracking Mode : Recursive Descent Parser dan Predictive Parser
54
55
Contoh Pohon
S => aAc A => Ab | {}
56
Kita bisa tentukan a1, a2, a3, dan b1, b2, b3, Lakukan penggantian aturan produksi yang rekursif kiri menjadi:
A => b1Z | b2Z | b3Z | Z => a1 | a2 | a3 | Z => a1Z | a2Z | a3Z |
Penggantian itu dilakukan untuk setiap aturan produksi dengan simbol di ruas kiri yang sama. Bisa muncul simbol variabel baru Z1, Z2, Z3sesuai dengan banyaknya variabel yang menghasilkan produksi yang rekursif kiri. Hasil akhir berupa aturan produksi pengganti ditambah dengan aturan produksi semula yang tidak rekursif kiri.
Kita simbolkan :
a1 = ab dan a2 = bd
Maka simbolkan:
b1 = aSc, b2 = dd, dan b3 = ff
57
Contoh lain:
S => Sab | Sb | cA A => Aa | a | bd Yang rekursif : S => Sab | Sb dan A => Aa Yang tidak: S => cA dan A => a | bd Pergantian:
Untuk S => Sab | Sb
S => cAZ1 Z1 => ab | b Z1 => abZ1 | bZ1
Untuk A => Aa
A => aZ2 | bdZ2 Z2 => a Z2 => aZ2
Hasil: S => cA A => a | bd S => cAZ1 Z1 => ab | b Z1 => abZ1 | bZ1 A => aZ2 | bdZ2 Z2 => a Z2 => aZ2
Contoh lain:
S => aA | b | cS A => Sd | e Jadi:
S => aA | b | cS A => aAd | bd | cSd | e
#rekursif kiri
58
Transformasi TBBK
Dimaksudkan untuk memperoleh TBBK yang memenuhi kriteria-kriteria tertentu yang lebih efisien. Transformasi boleh dilakukan asalkan tidak mengganggu maksud dan bahasa yang dihasilkan dari TBBK baru. TBBK dapat disederhanakan dengan:
Penghilangan produksi useless Penghilangan produksi unit Penghilangan produksi himpunan kosong
59
Transformasi TBBK
Penyederhanaan TBBK bertujuan untuk melakukan pembatasan sehingga tidak menghasilkan pohon sintaks yang rumit dan tidak berarti. Contoh :
S => AB | a A => a.
Kelemahannya adalah aturan produksi S => AB tidak berarti (useless) karena B tidak memiliki penurunan.
TBBK Kompleks
Contoh lain:
S => A A => B B => C C => D D = a |A
Kelemahan :
Jalannya terlalu panjang, padahal berujung pada S => a Produksi D => A juga dapat menyebabkan kerumitan (rekursif)
60
Produksi Useless
Adalah produksi yang memuat simbol variabel yang tidak memiliki penurunan yang akan menghasilkan terminal seluruhnya / hasil akhir menuju terminal
Produksi ini tidak berguna karena bila diturunkan tidak akan selesai (masih ada simbol variabel yang tersisa). Produksi ini juga tidak akan dicapai dengan cara apapun sehingga produksi ini redundan.
Dapat dilihat bahwa:Simbol A tidak memiliki penurunan yang menuju terminal sehingga bisa dihilangkan.
Maka A => Ada dihilangkan dan S => Abd tidak memiliki penurunan
61
62
Penghilangan produksi dilakukan dengan melakukan penggantian semua produksi yang memuat variabel yang bisa menuju produksi . Contoh :
S => bcAd A =>
63
Variabel yang nullable () adalah B, C, dan D Kita lihat A => CD maka berarti akan sama dengan A => , Karena D hanya menurunkan , D => maka kita sederhanakan D dulu:
S => AaCD menjadi S => AaC A => CD menjadi A => C D => kita hapus.
64
65