Anda di halaman 1dari 6

ALGORITMA THRESHOLDING ADAPTIF BERDASARKAN DETEKSI BLOK

TERHADAP CITRA DOKUMEN TERDEGRADASI


Agus Zainal Arifin, Arya Yudhi Wijaya, Laili Cahyani1
1
Fakultas Teknologi Informasi,
Institut Teknologi Sepuluh Nopember (ITS), Surabaya, 60111, Indonesia
E-mail : cahya_nie@cs.its.ac.id

ABSTRAK algoritma thresholding telah dikembangkan


Saat ini, keberadaan citra dokumen yang untuk citra dokumen terdegradasi[1].
mengalami degradasi dapat menjadi masalah Berdasarkan teknik yang ada saat ini,
tersendiri untuk melakukan suatu penelitian. thresholding dapat diklasifikasikan menjadi
Banyak metode yang sudah dikembangkan. dua, yaitu thresholding global dan thresholding
Namun, kebanyakan metode hanya lokal (adaptif). Metode thresholding global
memperhatikan perbaikan kualitas saja tanpa memperkirakan dan menerapkan threshold
memperhatikan efisiensi waktu. tunggal untuk seluruh piksel citra. Sahoo
Tugas akhir ini melakukan implementasi dkk.[2] telah melakukan perbandingan dengan
sebuah algoritma thresholding secara adaptif menggunakan pengukuran bentuk atau
terhadap citra dokumen terdegradasi. Dengan uniformity terhadap efektifitas metode yang
menggabungkan keuntungan metode global diusulkan oleh Otsu[3], Tsai, Johannsen, dan
dan lokal, algoritma ini membagi citra Kapur dalam mendapatkan hasil thresholding
dokumen menjadi beberapa blok. Kemudian yang memadai. Namun demikian, metode-
proses thresholding dilakukan pada tiap blok metode ini kurang efektif untuk mendapatkan
citra untuk mendapatkan hasil berupa citra hasil yang sesuai ketika citra memiliki beragam
biner. bentuk background. Maka banyak peneliti
Kinerja dari aplikasi ini akan diukur berusaha untuk mengatasi masalah ini dengan
menggunakan aplikasi Optical Character menggunakan metode lokal.
Recognition (OCR) dengan menghitung Dalam metode thresholding lokal, nilai
keakuratan pembacaan teks hasil thresholding. threshold ditentukan untuk setiap piksel
Akhirnya, metode ini menghasilkan suatu berdasarkan nilai grayscale sendiri dan nilai
pemisahan yang baik antara teks dan grayscale tetangga. Oleh karena itu,
background. Percobaan juga menunjukkan pendekatan ini disebut algoritma thresholding
bahwa metode ini mampu menghasilkan adaptif. Beberapa algoritma thresholding
kinerja yang lebih unggul dari metode adaptif telah dikembangkan, diantaranya adalah
sebelumnya. Rata-rata keakuratan metode Niblack [4] pada tahun 1986. Namun,
thresholding dari semua percobaan mencapai metode Niblack tidak efektif ketika
93%. background berisi tekstur berupa cahaya. Pada
tahun 2000, Sauvola [5] menyusun metode
Kata kunci : Degradasi, deteksi ukuran blok, yang memodifikasi metode Niblack dengan
thresholding, binerisasi adaptif. melakukan hipotesis pada nilai keabuan piksel
teks dan piksel background. Pada tahun 2004,
1 PENDAHULUAN Sezgin dan Sankur[6] melakukan perbandingan
Saat ini beberapa aplikasi memerlukan terhadap 40 metode. Hal itu menunjukkan
pengenalan karakter, seperti aplikasi OCR bahwa metode thresholding lokal Sauvola dan
(optical character recognition). Pada proses metode dari Trier melakukan yang terbaik
pemisahan karakter dan background, untuk proses thresholding dokumen. Kemudian
thresholding citra dokumen melibatkan proses Gatos dkk.[7] menemukan metode thresholding
konversi citra grayscale menjadi citra biner[1]. lokal lainnya untuk citra dokumen berkualitas
Proses thresholding telah diterima cukup rendah. Dengan menggunakan metode Sauvola,
intens selama tiga dekade terakhir. Meskipun metode Gato melakukan deteksi foreground
banyak algoritma telah diusulkan untuk gambar dan melanjutkannya dengan beberapa langkah
berintensitas seragam, namun thresholding post-processing untuk meningkatkan hasil
agak rumit ketika harus memproses gambar akhir. Meskipun menawarkan hasil yang
dokumen yang mengalami degradasi. memuaskan untuk dokumen terdegradasi,
Degradasi dapat disebabkan oleh beberapa hal, pendekatan lokal tersebut memiliki biaya
diantaranya background yang kompleks, komputasi yang tinggi karena harus
intensitas yang tidak seragam, dan bayangan memperkirakan nilai threshold untuk setiap
pada citra. Untuk mengatasi hal ini, beberapa piksel.

1
Oleh karena adanya manfaat dan melakukan perkiraan periode dari kurva yang
keterbatasan yang ada pada setiap metode dan dihasilkan oleh proyeksi horisontal H ( y )
kebanyakan hanya memperhatikan perbaikan berdasarkan langkah-langkah sebagai berikut :
kualitas tanpa memperhatikan efisiensi waktu, 1. R ( y ) merupakan kurva periodik
maka Tugas Akhir ini mengimplementasikan
algoritma thresholding berdasarkan deteksi dengan periode τ
, yang dapat
blok untuk mengatasi permasalahan tersebut. dirumuskan sebagai berikut
Deteksi blok dilakukan untuk melakukan 2πy
thresholding secara adaptif dan thresholding
Rτ ( y) = max[H ( y)].[sgn[sin( )] + 1]
τ
menggunakan metode global digunakan untuk (2.3)
mendapatkan waktu yang efisien. Sehingga
2. Varians dari Rτ (y ) dan H ( y )
proses thresholding citra dokumen terdegradasi
dapat menghasilkan keluaran yang baik dalam didapatkan dengan menghitung
waktu efisien. persamaan berikut:
N 2
1
2 METODE σ ε2 =
N
∑ [Rτ ( y ) − H ( y )]
y =1
(2.4)

2.1 Proyeksi Horisontal dimana N merupakan jumlah kolom


Proyeksi horisontal dilakukan untuk citra. Sedangkan, ε = 12 τ dan
mengenali karakteristik citra masukan yang
N
akan diproses. Sehingga, hal ini dapat 0<ε <
memudahkan proses pemisahan antara piksel 2
karakter dan piksel background. Persamaan 2.1 3. Ukuran smoothing window m dapat
adalah persamaan yang menunjukkan didefinisikan sebagai nilai ε
yang
perumusan proyeksi horisontal. dihasilkan pada varians minimal σ ε2
M
yang diperoleh.
H ( y) = ∑ f ( x, y ), (2.1)
Hasil keluaran proses smoothing filter
x =1
sekaligus merupakan keluaran akhir pada
dimana   merupakan intensitas keabuan
preprocessing ini berupa matriks Hsy sebagai
tiap piksel citra berukuran M×N dan (x,y)
representasi dari kurva yang lebih halus
merupakan koordinat tiap piksel. Hasil kurva
proyeksi horisontal dapat dilihat pada Gambar (smooth) dibandingkan dengan kurva H ( y ) .
3.1. Secara normal nilai piksel karakter harus Matriks Hsy ini yang akan menjadi masukan
lebih rendah daripada nilai dari piksel untuk proses deteksi ukuran blok.
background. Lembah dan puncak dari hasil
representasi kurva proyeksi horisontal 2.3 Deteksi Ukuran Blok
merupakan akumulasi nilai-nilai dari piksel Beberapa tahapan untuk melakukan
karakter dan background. Sehingga dapat deteksi ukuran blok adalah mencari turunan
terlihat bahwa daerah karakter dapat dipisahkan pertama dari kurva Hs ( y ) , mencari titik
dari daerah background. (3.3)
ekstrim dari turunan pertama, mencari nilai dari
2.2 Smoothing Filter inflection point, dan mencari ukuran blok.
Langkah awal yang dilakukan adalah
Smoothing filter dilakukan untuk mencari turunan pertama dari kurva Hs ( y ) .
memperbaiki nilai kontras yang tidak merata
Pencarian turunan pertama dilakukan untuk
sebab adanya noise yang muncul, sehingga
mendapatkan gradient atau kemiringan kurva.
dapat menghalangi proses pemisahan antara
Hal ini dapat menunjukkan karakteristik dari
piksel karakter dan background. Smoothing
citra sehingga pada proses berikutnya dapat
filter juga dilakukan untuk menjaga informasi
dilakukan pemisahan antara karakter dan
penting dari dokumen agar tidak banyak yang
background berdasarkan intensitas keabuan
hilang selama proses thresholding. Perumusan
citra masukan, baik sebagai wilayah karakter
smoothing filter yang digunakan dapat dilihat
atau background. Turunan pertama dari kurva
pada persamaan 2.2
m
Hs ( y ) dirumuskan oleh persamaan 2.5,
y+ sedangkan kurva hasil turunan pertama dapat
2
1
Hs ( y ) = ∑ H (k ),
m k= y− m
(2.2)
dilihat pada Gambar 1.

dHs(y) Hs(y+1)−Hs(y)
2 H's ( y) = = =Hs(y+1)−Hs(y)
dimana m merupakan ukuran dari smoothing dy (y+1)−y
window. Ukuran window ditentukan dengan (2.5)

2
Gambar 1 Ilustrasi Proses Segmentasi Citra.

Langkah berikutnya adalah mencari titik Citra masukan yang berupa citra
ekstrim dari turunan pertama, yaitu titik dimana grayscale dibagi menjadi beberapa blok
kurva asal berada pada nilai maksimum atau berdasarkan jarak yang telah didapatkan pada
minimum. Pada Gambar 3.1, titik ekstrim proses deteksi ukuran blok sebelumnya.
ditunjukkan sebagai deret Pertama daerah citra masukan dipisahkan ke
Y = {Y j 0 < j < n } yang dapat didefinisikan dalam n – 1 bagian sub-region ( , , ...,
sebagai titik dimana nilai turunan pertamanya ). Tiap bagian sub-region terdiri dari
adalah nol. piksel. Tiap bagian sub-region dibagi
Setelah didapatkan deret Y sebagai titik menjadi kumpulan blok. Tiap blok terdiri dari
ekstrim, maka langkah selanjutnya yaitu piksel. Ukuran blok pada tiap bagian
mencari inflection point. Inflection point sub-region bervariasi sesuai jarak
P = {P j 1 < j < n }didapatkan antara indeks
Hasil dari segmentasi citra adalah citra
Yj dan Yj+1. Berikut ini adalah perumusan yang terbagi menjadi sub-region citra. Ilustrasi
inflection point yang digunakan untuk proses pada Gambar 1 adalah hasil segmentasi citra.
deteksi ukuran blok
P j = max H s' , { } (2.5)
Y j < Y < Y j +1

'
dimana H s merupakan nilai turunan pertama
yang telah didapatkan pada kurva sebelumnya.
Nilai turunan yang maksimal pada kurva
turunan menunjukkan bahwa
gradient/kemiringan paling besar. Gradient ini
didefinisikan sebagai adanya perubahan
kontras yang terjadi pada tingkat keabuan dari
piksel-piksel citra. Sehingga terdapat batas
Gambar 2 Ilustrasi Proses Segmentasi Citra.
yang dijadikan pemisah antara region karakter
dan region background.
Inflection point merupakan titik batas 2.5 Thresholding Citra
yang digunakan antara wilayah karakter dan Proses berikutnya dalam
background. Sehingga langkah berikutnya pengimplementasian algoritma thresholding
adalah menghitung jarak antara tiap inflection adaptif berdasarkan deteksi blok ini adalah
point yang didapatkan. Jarak tersebut akan proses thresholding citra. Pada proses deteksi
menjadi ukuran blok untuk proses segmentasi blok yang menjadi data masukan adalah hasil
citra di tahap berikutnya. Jarak ini juga citra yang telah tersegmentasi. Proses ini
didefinisikan sebagai tinggi tiap wilayah membutuhkan inisialisasi nilai mean dan
karakter dan background, serta dijadikan standar deviasi yang digunakan sebagai
sebagai input paramater pada proses threshold. Pertama yang dilakukan terhadap
segmentasi. Perumusan jarak yang dilakukan citra yang telah terbagi menjadi beberapa blok
berdasarkan persamaan 2.6. tersebut yaitu menghitung nilai local mean dan
D j = Pj +1 − Pj . (2.6) local standar deviasi. Local mean dan local
standar deviasi dihitung untuk tiap blok serta
digunakan untuk menentukan apakah suatu
blok perlu diproses dengan threshold adaptif
2.4 Segmentasi Citra

3
atau tidak. Kemudian nilai local mean dan
local standar deviasi pada tiap blok
dibandingkan dengan mean threshold dan
standar deviasi threshold. Jika nilai local
standar deviasi lebih rendah daripada standar
deviasi threshold dan local mean lebih tinggi citra1 citra2
daripada mean threshold, maka setiap piksel
dalam blok tersebut disubtitusikan dengan
piksel background(1). Sebaliknya, jika tidak
maka untuk tiap blok dilakukan proses
binerisasi citra dengan metode global (metode
otsu). Metode otsu digunakan karena citra3 citra4
Gambar 3 Data Citra Uji Coba Parameter
kecepatannya dalam melakukan proses
thresholding secara global.
3.1 Uji Coba Parameter
Ada dua buah parameter yang cukup
3 UJI COBA DAN EVALUASI penting untuk digunakan dalam implementasi
Terdapat dua macam uji coba yang algoritma thresholding adaptif berdasarkan
dilakukan, yaitu uji coba parameter dan uji deteksi blok, yaitu.
coba perbandingan metode. Uji coba parameter 1. Parameter mean threshold
dilakukan untuk mendapatkan parameter yang 2. Parameter standar deviasi threshold
sesuai untuk algoritma thresholding adaptif
berdasarkan deteksi blok ini, sedangkan uji 3.1.1 Uji Coba dan Evaluasi Parameter
coba perbandingan metode dilakukan untuk Mean
mengetahui seberapa unggul algoritma Uji coba parameter mean yang dilakukan
thresholding adaptif berdasarkan deteksi blok terhadap citra uji 1 dengan menggunakan 10
dibandingkan dengan metode yang nilai mean menghasilkan kinerja seperti
dikembangkan sebelumnya, yaitu Otsu, ditunjukkan pada Tabel 1. Demikian juga pada
Niblack, dan Sauvola. data citra uji 2, 3, dan 4 sehingga menghasilkan
Sebagai data masukan untuk uji coba nilai mean threshold optimal yaitu 40.
parameter, digunakan 4 macam data citra
dokumen dengan degradasi yang berbeda Tabel 1 Evaluasi Uji Coba Parameter Mean Citra
seperti ditunjukkan pada Gambar 3. Sedangkan Uji 1
untuk melakukan uji coba perbandingan Kriteria
meant
metode, digunakan 8 macam sampel data citra DB DS TT PRC RCL F
dokumen terdegradasi. 100 346 31 359 91.78 96.38 94.02
90 349 21 359 94.32 97.21 95.75
Evaluasi dilakukan dengan menjadikan 80 355 21 359 94.41 98.89 96.60
citra hasil thresholding sebagai masukan pada 70 355 13 359 96.47 98.89 97.66
software OCR untuk mengukur kemampuan 60 355 12 359 96.73 98.89 97.80
aplikasi dalam melakukan pengenalan karakter. 50 358 5 359 98.62 99.72 99.17
Istilah berikut akan menjelaskan kriteria pada 40 356 1 359 99.72 99.16 99.44
tiap tabel uji coba berikutnya. 30 356 1 359 99.72 99.16 99.44
• DB: karakter (huruf, angka, atau tanda 20 356 1 359 99.72 99.16 99.44
baca) yang terdeteksi benar oleh OCR, 10 356 1 359 99.72 99.16 99.44
• DS: karakter yang terdeteksi namun
merupakan kesalahan pengenalan oleh 3.1.2 Uji Coba dan Evaluasi Parameter
OCR, Standar deviasi
• TT: total karakter keseluruhan,
Tabel 2 Evaluasi Uji Coba Parameter Standar
• PRC: pengukuran secara precision, deviasi Citra Uji 1
• RCL: pengukuran secara recall, Kriteria
• F: rata-rata harmonis antara precision stdT
DB DS TT PRC RCL F
dan recall. 20 258 10 359 96.29 71.87 82.30
DB , (3.1) 18 268 18 359 93.71 74.65 83.10
PRC = 16 286 21 359 93.16 79.67 85.89
( DB + DS )
14 313 14 359 95.72 87.19 91.25
DB , (3.2) 12 330 19 359 94.56 91.92 93.22
RCL =
TT 10 357 1 359 99.72 99.44 99.58
2 * ( PRC * RCL) (3.3)
8 357 2 359 99.44 99.44 99.44
F= 6 358 2 359 99.44 99.72 99.58
( PRC + RCL) 4 355 18 359 95.17 98.89 96.99
2 346 23 359 93.77 96.38 95.05

4
Uji coba parameter standar deviasi yang Tabel 3 Evaluasi Uji Coba Perbandingan Metode
dilakukan terhadap citra uji 1 dengan Adaptif Blok dan Otsu
menggunakan 10 nilai standar deviasi Citra I Citra II Citra III

Uji Coba
menghasilkan kinerja seperti ditunjukkan pada

Kriteria

Adaptif

Adaptif

Adaptif
Tabel 2. Demikian juga terhadap data citra uji

Blok

Blok

Blok
Otsu

Otsu

Otsu
2, 3, dan 4 sehingga menghasilkan nilai standar
deviasi threshold optimal yaitu 10.
DB 219 56 51 49 32 12
3.2 Uji Coba Perbandingan Metode
DS 0 6 8 9 0 2
Terdapat tiga metode yang digunakan TT 219 219 52 52 32 32
sebagai pembanding untuk melakukan uji coba
PRC 100 90.3 86.4 84.5 100 85.7
perbandingan metode, yaitu :
1. Metode global Otsu RCL 100 25.6 98.1 94.2 100 37.5
2. Metode adaptif Niblack F 100 39.8 91.9 89.1 100 52.2
3. Metode adaptif Sauvola
Tabel 4 Evaluasi Uji Coba Perbandingan Metode
Adaptif Blok dan Niblack
Citra I Citra II Citra III

Uji Coba
Kriteria

Niblack

Niblack

Niblack
Adaptif

Adaptif

Adaptif
Blok

Blok

Blok
citra1 adaptif blok Otsu

DB 219 114 51 25 80 53
DS 0 59 8 27 0 28
citra3 adaptif blok Otsu TT 219 219 52 52 86 86
Gambar3 Hasil Perbandingan Metode Adaptif PRC 100 65.9 86.4 48.1 100 65.4
Blok dan Otsu RCL 100 52 98.1 48.1 93 61.6
F 100 58.2 91.9 48.1 96.4 63.5

Tabel 5 Evaluasi Uji Coba Perbandingan Metode


Adaptif Blok dan Sauvola
citra1 adaptif blok Niblack Citra I Citra II Citra III
Uji Coba
Kriteria

Sauvola

Sauvola

Sauvola
Adaptif

Adaptif

Adaptif
Blok

Blok

Blok
citra3 adaptif blok Niblack
DB 219 215 51 51 80 75
Gambar3 Hasil Perbandingan Metode Adaptif DS 0 4 8 1 0 18
Blok dan Niblack
TT 219 219 52 52 86 86
PRC 100 98.2 86.4 981 100 80.6
RCL 100 98.2 98.1 98.1 93 87.2
F 100 98.2 91.9 98.1 96.4 83.8
citra1 adaptif blok Sauvola
Rata-rata F-Measure yang didapatkan dari uji
coba perbandingan metode terhadap 8 citra
adalah sbb.
• Thresholding Adaptif Blok: 92.69%
citra3 adaptif blok Sauvola
• Thresholding Global Otsu: 62.94%
Gambar3 Hasil Perbandingan Metode Adaptif • Thresholding Adaptif Niblack: 34.46%
Blok dan Sauvola • Thresholding Adaptif Sauvola: 85.79%
Evaluasi terhadap uji coba hasil perbandingan 4 SIMPULAN
metode adaptif blok dan Otsu ditunjukkan oleh
Tabel 3. Sedangkan perbandingan dengan Dari hasil uji coba yang didapatkan,
metode Niblack dan Sauvola ditunjukkan pada didapatkan beberapa simpulan sebagai berikut:
Tabel 4 dan 5. 1. Aplikasi ini mampu melakukan proses
thresholding berdasarkan deteksi blok

5
terhadap citra dokumen terdegradasi
dengan baik, sehingga menghasilkan
citra biner yang dapat dikenali oleh
aplikasi OCR.
2. Aplikasi ini mampu mendeteksi
ukuran blok untuk proses segmentasi
terhadap citra dokumen terdegradasi.
3. Aplikasi ini mampu melakukan
thresholding secara adaptif melalui
blok-blok yang telah didapatkan.
4. Algoritma thresholding adaptif
berdasarkan deteksi blok memiliki
kinerja lebih baik daripada metode
Otsu, Niblack, dan Sauvola.

5. DAFTAR PUSTAKA
[1]. Pai Yu-Ting, Yi-Fan Chang and
Shanq-Jang Ruan, 2010. Adaptive
thresholding algorithm: Efficient
computation technique based on
intelligent block detection for
degraded document images, Elsevier
Ltd.
[2]. Sahoo, P.K, S. Soltani, and A. K. C.
Wong, 2004. Survey over image
thresholding techniques and
quantitative performance evaluation.
Journal of Electronic Imaging
[3]. Nobuyuki Otsu, 1979. A Threshold
Selection Method From Gray Level
Histograms. IEEE Trans. Systems
Man Cybernet.
[4]. W. Niblack, 1986. An Introduction
to Digital Image Processing.
Prentice-Hall.
[5]. Sauvola, J., M. Pietikainen. 2000.
Adaptive Document Image
Binarization. Pattern Recognition.
[6]. Sezgin, Mehmet, Bulent Sankur.
2004. Survey Over Image
Thresholding Techniques and
Quantitative Performance
Evaluation. Journal of Electronic
Imaging.
[7]. Gatos, B., I. Pratikakis, S. J.
Perantonis. 2005. Adaptive
Degraded Document Image
Binarization. Elsevier Ltd.
[8]. Gonzales, R.C., Woods, R.E., 2002.
Digital Image Processing, 2nd ed.
Prentice Hall, Upper Saddle River,
NJ, pp.

Anda mungkin juga menyukai