Abstrak— Deteksi teks pada sebuah citra merupakan hal (HOCC) agar dapat meningkatkan akurasi dari teks yang
yang harus dilakukan sebelum melakukan pengenalan karakter. didapatkan pada region MSER[6].
Proses deteksi teks berperan penting dalam perolehan informasi
pada sebuah citra. Pada penelitian ini dilakukan deteksi teks Metode Speed Up Robust Feature (SURF) sendiri telah
secara otomatis menggunakan Maximally Stable Extremal banyak digunakan untuk mencocokan kedua gambar secara
Regions (MSER) dan Speeded-up Robust Features (SURF). otomatis [7][8] dan telah menghasilkan akurasi pencocokan
Kombinasi MSER dan SURF digunakan untuk menemukan gambar dengan sangat baik, bahkan metode MSER dan SURF
wilayah kandidat teks pada sebuah citra. Kemudian edge telah digunakan untuk mencocokan kedua gambar secara
detection juga dilakukan untuk melakukan validasi terhadap otomatis[9] dan telah menghasilkan akurasi yang sangat baik
wilayah teks yang telah ditemukan. Berikutnya, metode Stroke dari penelitian sebelumnya. Oleh karena itu metode yang
Width Transform (SWT) digunakan untuk membedakan diajukan pada penelitian ini adalah mengkombinasi Maximally
wilayah citra teks dan non-teks. Dataset yang digunakan adalah Stable Extermal Region (MSER) dengan Speed Up Robust
ICDAR 2003. Hasil pengujian menunjukkan bahwa hasil Feature (SURF) yang tujuan dari mengkombinasi kedua
kombinasi MSER dan SURF dapat mendeteksi teks pada natural metode ini untuk meningkatkan akurasi dari penelitan yang
image secara lebih baik dibandingkan dengan MSER saja. telah dilakukan sebelumnya. Pada bagian II akan dijelaskan
studi literature dari penelitian sebelumnya dalam mendeteksi
Kata Kunci — Deteksi teks, Maximally Stable Extremal Region,
teks pada gambar natural, pada bagian III dijelaskan bagaimana
Speeded-up Robust Features, Stroke Width Transform
alur dari metode yang diajukan pada penelitian ini dan pada
I. PENDAHULUAN bagian. Dataset yang digunakan pada penelitan ini
menggunakan dataset ICDAR 2013 yang dimana data ini telah
Deteksi teks pada gambar natural merupakan tantangan digunakan juga oleh penelitian sebelumnya.
tersendiri karena citra dari gambar memiliki background yang
kompleks. Gambar natural juga mempunyai beragam objek II. STUDI LITERATUR
dalam sebuah gambar pemandangan sehingga wilayah teks
yang akan dideteksi pada gambar tersebut menjadi tantangan 2.18. Deteksi Region: MSER
seperti ukuran, jenis, dan bentuk teks. Maximally Stable Fitur pada MSER secara umum tergantung dengan batas-
Extermal Region (MSER) adalah metode yang telah banyak batas wilayah dari citra yang dideteksi. Struktur algoritma
digunakan untuk mendeteksi area teks pada gambar natural MSER dan algoritma DAS pada dasarnya identik, tetapi
secara Unsupervised seperti yang dilakukan penelitian struktur output dari kedua algoritma tersebut sangat berbeda.
jsebelumnya [1][2][3][4]. Selain menggunakan MSER deteksi Dalam deteksi algoritma MSER satu set threshold segement
teks juga dapat dilakukan dengan Histogram Of Oriented pada gambar biner MSER dapat ditentukan dengan
Gradients (HOG) [5] telah menghasilkan akurasi yang baik membandingkan sesuai bagian dari gambar tersebut diproses.
akan tetapi deteksi teks tidak dilakukan secara langsung atau MSER dibagi menjadi dua kategori berdasarkan kecerahan
unsupervised. Dalam upaya meningkatkan akurasi MSER juga pada gambar natural dan dilambangkan dengan MSERs+ dan
telah dikombinasi dengan beberapa metode salah satunya MSERs-.
dengan menggunakan higher-order correlation clustering
Dalam menentukan hasil dari daerah Extermal pencacahan
dapat dilakukan dengan cara berikut:
197
Prosiding
ANNUAL RESEARCH SEMINAR 2016
6 Desember 2016, Vol 2 No. 1
1. Pixel diurutkan menurut intensitas. pada titik tersebut. Kemudian orientasi yang dominan
ditentukan dengan menghitung jumlah semua hasil
2. Setelah pengurutan piksel ditempatkan dalam gambar dalam orientasi ukuran masing-masing neighborhood.
dan daftar komponen yang terhubung dan daerah
Keempat, penentuan deskriptor berdasarkan jumlah
MSER dipertahankan dengan melakukan union antar dari Haar wavelet yang kemudian dilakukan esktraksi
daerah. dari descriptor tersebut dengan membangun wilayah
3. Selama proses pencacahan daerah masing-masing persegi yang berpusat pada interest point dan orientasi
komponen yang terhubung sebagai fungsi intensitas di wilayah terseleksi sebelumnya.
disimpan.
2.20. Deteksi Tepi
4. Diantara banyak region yang dihasilkan, yang secara Deteksi tepi digunakan untuk mendeteksi tepi objek
maksimal stabil adalah nilai dari region yang sesuai dari sebuah citra. Deteksi tepi sering digunakan dalam
dengan thresholds. deteksi atau pengenalan sebuah objek. Deteksi tepi juga
5. Daerah MSER adalah bagian dari gambar dimana digunakan pada tahap preprocessing. Dalam hal ini deteksi
binarization stabil selema rentang dari nilai region tepi digunakan untuk mendeteksi tepi dari sebuah teks.
masih didalam thresholds Untuk mendeteksi tepi secara sempurna dari sebuah teks,
metode penekanan non maxima digunakan sebagai hasil
2.19. SURF
dalam satu pixel tepian yang luas sebagai output.
Secara umum algoritma Speeded Up Robust Feature Selanjutnya, MSER dikombinasikan dengan deteksi tepi
(SURF) memiliki empat langkah utama: Hessian Matrix untuk meningkatkan atau lebih tepatnya dikatakan hasil
berbasis point deteksi yang masih pada ruang skala, Interest tepi yang ditingkatkan. Tepi yang diperoleh digunakan
Point Localization, orientation segment dan Deskriptor sebagai batas untuk daerah MSER dan informasi diluar
berdasarkan jumlah respon dari Haar wavelet.
batas tersebut akan dihapus. Pada kombinasi ini, arah
(1) Hessian Matrix berbais point deteksi dalam skala: gradien dari setiap pixel tepi disesuaikan sehingga dapat
memberikan peningkatan representasi teks dalam kondisi
Matiks Hessian digunakan sebagai deskriminan untuk
blur.
mencari nilai maksimal. Untuk setiap point X=(x,y)
didalam gambar I, Hessian matriks H(X, ) didalam X
pada skala didefinisikan seperti pada rumus dibawa 2.21. Stroke Width Transform (SWT)
ini.
[10]SWT diterapkan dalam rangka untuk menemukan
( ) ( ) kandidat karakter dalam teks. Blok yang terdeteksi yang
H(X, )=⌊ ⌋ mengandung calon karakter dikelompokkan secara
( ) ( )
bersama-sama dan blok yang tidak terdeteksi akan
dimana L_xx (X,σ) adalah konvolusi dari turunan dihapus. Metode ini memungkinkan dapat diterapkan
kedua Gaussian dari citra I pada titik X dan sama untuk untuk beberapa bahasa dan jenis font.
L_xy (X,σ) dan L_yy (X,σ). Kemudian aproksimasi SWT adalah sebuah operator citra lokal yang
dari hasil konvolusi dinyatakan sebagai D_xx, D_yy, menghitung lebar stroke yang paling mungkin
dan D_xy sehingga determinan dari matriks Hessian mengandung pixel. Stroke didefinisikan sebagai bagian
adalah det(H_approx )=D_xx D_yy-(wD_xy )^2. kontinu dari citra yang membentuk sebuah band dengan
Kedua, proses lokalisasi interest point dimulai lebar yang hampir konstan. Lebar yang hampir konstan
dengan melakukan penetapan terhadap nilai ambang merupakan salah satu fitur yang membedakan teks dari
untuk mendeteksi titik ekstrim dari matriks Hessian. unsur-unsur lain pada citra, yang dapat dimanfaatkan
Kemudian sebuah non maksimum dalam ukuran 3x3x3 untuk memulihkan daerah yang mungkin berisi teks. SWT
neighborhood diterapkan untuk menghasilkan titik melakukan integrasi informasi secara bottom-up, di mana
ekstrim. Hanya titik dengan nilai yang lebih besar dari ia menggabungkan piksel lebar stroke yang sama ke dalam
26 neighborhood lainnya yang dipilih sebagai feature komponen yang lebih besar. Output dari SWT adalah citra
point. dengan ukuran yang sama dengan ukuran citra input di
Ketiga, penetapan orientasi dimulai dari mana setiap elemen mengandung lebar stroke terkait
menghitung Haar wavelet dalam arah x dan y. dengan pixel.
Hasilnya dibobotkan dengan Gaussian yang berpusat
198
Prosiding
ANNUAL RESEARCH SEMINAR 2016
6 Desember 2016, Vol 2 No. 1
199
Prosiding
ANNUAL RESEARCH SEMINAR 2016
6 Desember 2016, Vol 2 No. 1
REFERENSI
200