Anda di halaman 1dari 6

BAB 2

LANDASAN TEORI

2.1 Pandangan Umum


Kompresi data (data compression) adalah metode yang dipakai untuk
memperkecil ukuran file. Secara teknis ukuran file komputer dapat diperkecil
karena data yang ada di dalam file tersebut pada umumnya memiliki redundansi
dan cara penataan yang kurang efisien. Untuk file-file tertentu, misalnya file suara
dan file gambar, ada sejumlah data yang dapat dihilangkan tanpa menghilangkan
informasi utama yang terkandung didalamnya.
Held dan Marshall (1991, hal. 1) menyatakan bahwa kompresi data dapat
mengatasi masalah kebutuhan tempat penyimpanan data dan masalah pengiriman
data jarak jauh. Seiring dengan berkembangnya teknologi perangkat keras dan
perangkat lunak pendukungnya, sebenarnya kemampuan komputer dan internet
semakin tinggi. Prosesor semakin cepat kerjanya, kapasitas media penyimpan
semakin besar dengan harga yang semakin murah, dan bandwidth internet juga
semakin besar. Namun karena perkembangan tersebut juga diikuti oleh
beragamnya jenis aplikasi yang melibatkan konsep multimedia, dan jumlah
record yang semakin banyak, maka ukuran file akan terus membesar sehingga
metode kompresi data tetap diperlukan.
Kompresi data juga memberikan keuntungan teknis yang lain. Salton
(1989, hal. 105) menyatakan bahwa efisiensi dari sistem pemrosesan berkas teks
akan lebih baik kalau berkas tersebut disimpan dalam format yang mudah
dimanipulasi oleh komputer. Pemilihan metode kompresi yang tepat, selain
memperkecil ukuran file juga akan meningkatkan efisiensi proses pengolahannya.
Dengan demikian kompresi data memberikan tiga keuntungan utama yaitu
memperkecil ukuran file, mempercepat pemrosesan data dan juga mempercepat
waktu pengiriman data lewat jaringan.

2.2 Terminologi
Dalam bidang kompresi data ada sejumlah istilah atau terminologi yang
umum dipakai dalam tulisan-tulisan ilmiah. Dari sekian banyak terminologi itu
yang paling banyak digunakan adalah compression, decompression, compression
ratio dan compression factor.
Compression adalah proses kompresi atau pemampatan berkas agar
ukurannya menjadi lebih kecil. Proses ini diperlukan sewaktu berkas akan
disimpan atau akan dikirim ke tempat lain melalui jaringan. Apabila berkas
tersebut akan dipakai lagi, misalnya ditampilkan di layar monitor atau dijalankan
oleh aplikasi multimedia, maka perlu dikembalikan ke format semula. Proses
pengembalian berkas yang sudah dikompres kedalam ukuran semula ini disebut
dengan istilah decompression.
Untuk mengukur seberapa baik unjuk kerja suatu metode kompresi data,
digunakan istilah Compression Ratio (CR) dan Compression Factor (CF).
Compression Ratio adalah rasio atau perbandingan antara ukuran file sesudah
dikompres dengan ukuran file sebelum dikompres (Salomon, 2004, hal. 10), yang
secara matematis dapat ditulis seperti pada Persamaan 1.

Ukuran file sesudah dikompres


CR = --------------------------------------- ( Persamaan 1 )
Ukuran file sebelum dikompres

Berdasarkan Persamaan 1, semakin kecil nilai CR hasilnya akan semakin baik.


Namun ada kalanya ukuran CR ini bertentangan dengan intuisi di masyarakat
yang menilai bahwa semakin besar suatu nilai akan semakin baik. Untuk itu
dibuat juga ukuran CF yang merupakan kebalikan dari CR. Secara matematis nilai
CF dapat ditulis seperti pada Persamaan 2.

Ukuran file sebelum dikompres


CR = --------------------------------------- ( Persamaan 2 )
Ukuran file sesudah dikompres

2.3 Klasifikasi Kompresi Data


Metode kompresi data dapat diklasifikasi berdasarkan bermacam-macam
kriteria. Berdasarkan keutuhan data sebelum dan sesudah dikompres, metode
kompresi data dikelompokkan menjadi lossy dan lossless (Sayood, 2006, hal. 4,5).
Metode kompresi lossless menjamin bahwa data yang tersimpan dalam file yang
dikompres tetap utuh, sedangkan kalau pada kompresi lossy dimungkinan adanya
kehilangan data meskipun tidak mengurangi makna informasi yang terkandung
dalam file tersebut. File yang berisi data numerik dan data teks adalah contoh-
contoh file yang harus dikompres dengan metode lossless, sedangkan file gambar
dan file suara adalah contoh-contoh file yang dapat dikompres dengan metode
loosy.
Klasifikasi metode kompresi dapat juga didasarkan pada properties dari
suatu file. Metode kompresi yang hanya didasarkan pada sifat fisik dari file
disebut physical compression, sedangkan yang memperhatikan nilai yang
terkandung pada isi file disebut logical compression (Salomon, 2004, hal. 10).
Sebagai contoh, kalua metode kompresi hanya melihat file sebagai kumpulan bit-
bit 0 dan 1, tanpa melihat nilai yang terkandung pada bit-bit tersebut,
diklasifikasikan sebagai physical compression. Pada logical compression, data
dilihat sebagai suatu item yang memiliki ciri-ciri tertentu yang dapat digunakan
sebagai dasar pembuatan metode kompresi. Sebagai contoh, data teks merupakan
kumpulan karakter yang panjangnya 8 bit, dan masing-masing memiliki suatu
kesamaan tertentu. Berdasarkan kesamaan-kesamaan inilah metode kompresi
dikembangkan.
Metode kompresi data dapat dibuat selalu tetap tanpa memperhatikan
properties dari file yang dikompres tetapi dapat juga dibuat selalu menyesuaikan
diri dengan file yang diolah. Metode yang pertama disebut nonadaptive
compression sedangkan metode kedua disebut adaptive compression. (Salomon,
2004, hal. 8). Pada skripsi ini metode diatomic encoding yang digunakan bersifat
lossless, logical dan adaptive.

2.4 Metode Diatomic Encoding


Diatomic Encoding adalah metode kompresi data yang bekerja dengan
cara mengganti dua buah karakter yang berturutan dengan sebuah karakter lain.
Metode ini memanfaatkan sifat bahwa ada kombinasi dua buah karakter yang
jumlahnya cukup banyak dalam suatu file. Proses substitusi dua buah karakter
dengan sebuah karakter pada diatomic encoding dapat dilihat pada Gambar 1.
Proses ini dapat disebut sebagai proses kompresi.

Karakter ke (n) + Karakter ke (n+1) Karakter khusus

Gambar 1. Proses kompresi pada diatomic encoding

Karakter ke (n) dan karakter ke (n+1) adalah kombinasi dua buah karakter
yang pada proses kompresi disubstitusi dengan sebuah karakter khusus. Karakter
pengganti ini harus tidak muncul pada file tersebut agar tidak menimbulkan
kesalahan sewaktu diadakan dekompresi.
Proses dekomprersi merupakan kebalikan dari proses kompresi, yaitu
mensubstitusi karakter khusus dengan dua buah kombinasi karakter yang sudah
ditentukan sebelumnya. Proses dekompresi metode diatomic encoding dapat
dilihat pada Gambar 2.

Karakter khusus Karakter ke (n) + Karakter ke (n+1)

Gambar 2. Proses dekompresi pada diatomic encoding

File teks dari setiap bahasa memiliki kombinasi yang berbeda-beda. Pada
nonadaptive diatomic encoding, kombinasi dua buah karakter yang akan
disubstitusi ditentukan berdasarkan penelitian sebelumnya. Metode ini mungkin
tidak akan memberikan nilai CR terbaik karena setiap file belum tentu memiliki
kombinasi karakter yang sama. Kombinasi dua karakter yang paling banyak
muncul di suatu file belum tentu banyak muncul di file lain. Selain itu karakter
pengganti yang dipilih dapat terjadi akan muncul di suatu file.
Untuk memperbaiki kelemahan ini, metode diatomic encoding dibuat
adaptive dengan cara, untuk setiap file dicari kombinasi dua buah karakter dengan
kemunculan paling tinggi dan juga karakter khusus penggantinya. Setelah
kombinasi tersebut ditemukan, kemudian dilakukan substitusi dengan sebuah
karakter khusus yang juga sudah ditemukan. Alur logika dari metode adaptive
diatomic encoding dapat dilihat pada Gambar 3.

Cari kombinasi 2 buah karakter terbanyak

Cari 1 buah karakter yang tidak muncul

Substitusi setiap kombinasi yg ditentukan dengan


karakter khusus

Gambar 3 Alur logika metode adaptive diatomic encoding

Pada waktu hasil kompresi disimpan, informasi tentang dua buah karakter
yang dikombinasi dan karakter penggantinya harus disertakan dalam file tersebut.
Dengan cara ini maka untuk setiap file hasil kompresi selalu ditambah dengan 3
buah karakter.

2.5 Analisis pada metode Adaptive Diatomic Encoding


Untuk memprediksi unjuk kerja dari metode ini, dilakukan analisis
matematis dengan kondisi ekstrim. Misalkan sebuah file terdiri dari t buah
karakter. Agar lebih sederhana, t adalah bilangan genap.Dalam kondisi ekstrim,
file tersebut hanya terdiri dari 2 buah jenis karakter saja yang berdekatan secara
berselang-seling. Dengan demikian file tersebut terdiri dari ½ t kombinasi dari 2
buah karakter. Berdasarkan Persamaan 1 nilai CR terbaik dari metode ini dapat
dihitung:
 1 
t − t  + 3
2  1 3
CR =  = +
t 2 t
Sedangkan kondisi terburuk terjadi kalau dalam file tersebut tidak ditemukan
kombinasi 2 buah karakter yang muncul lebih dari 1 kali. Kondisi ini
menghasilkan nilai CR:
(t + 3) 3
CR = =1+
t t

Dari kedua perhitungan diatas, kondisi terbaik akan menghasilkan nilai CR


sebesar setengah ukuran file ditambah 3/t, dan kondisi terburuknya menghasilkan
nilai CR sebesar 1 ditambah 3/t. Semakin besar ukuran file nilai 3/t tidak akan
significant.

Anda mungkin juga menyukai