Jelajahi eBook
Kategori
Jelajahi Buku audio
Kategori
Jelajahi Majalah
Kategori
Jelajahi Dokumen
Kategori
image.
Pertama,
analisis
dilakukan
pada
komponen
karakter.
Teks
proporsional
dipecah
menjadi
kata-kata
denganmenggunakan ruang pasti dan ruang fuzzy. Pengenalan kata pada image
dilakukan pada dua tahap proses yang disebut pass-two Pada pass pertama
dilakukan untuk mengenali masing-masing kata pada gilirannya. Kata-kata
yang sukses pada pass pertama yaitu kata-kata yang terdapat di kamus dan
tidak ambigu kemudian diteruskan 16 ke classifier adaptif sebagai data
pelatihan. Begitu classifier adaptif memiliki sampel yang cukup, classifier
adaptif ini dapat memberikan hasil klasifikasi bahkan pada pass pertama.
Proses pass kedua dilakukan untuk mengenali kata-kata yang mungkin saja
kurang dikenali atau terlewatkan pada pass pertama, pada tahap ini classifier
adaptif telah memperoleh informasi lebih dari pass pertama. Tahap terakhir
menyelesaikan ruang fuzzy dan memeriksa hipotesis alternatif pada
ketinggian-x untuk mencari teks dengan smallcap.(Ray Smith, 2007)
berjalan pada setiap kata secara independen, diikuti tahap resolusi fuzzy-space
akhir, di mana ruang tidak pasti diputuskan. (Ray Smith, 2007)
9.3.2 Line and Word Finding
9.3.2.1 Line Finding
Algoritma line finding Tesseract ini dirancang agar halaman yang
miring dapat dikenali tanpa perlu untuk de-skewed (Smith, 2007).Tidak seperti
tesseract, kebanyakan mesin OCR de-skewed halaman untuk mempermudah
jalur proses Temuan. Hal ini bagaimanapun bisa, menyebabkan hilangnya
kualitas gambar sebagai teks meregang dan menarik, yang memperkenalkan
sejumlah besar noise. Aspek kunci dari line finding algoritma adalah blob
filtering dan constuction line. Dalam langkah ini, mesin sederhana tingginya
persentil ke Filter menghapus drop-caps dan karakter vertikal sentuhan.
Ketinggian rata-rata mendekati ukuran teks di daerah, yang membuatnya aman
untuk blobs filtering yang terlalu kecil dibandingkan dengan tinggi rata-rata
biasanya menunjukkan tanda baca, tanda diakritik, dan noise. (Brian, 2012)
dipasang, descender-line, meanline dan ascender line. Semua garisgaris ini adalah "sejajar" (y pemisahan adalah konstan selama seluruh
panjang) dan sedikit melengkung. Garis ascender adalah cyan (cetak
sebagai cahaya abu-abu) dan garis hitam di atas sebenarnya lurus,
menunjukkan bahwa cyan / garis abu-abu melengkung relatif terhadap
garis hitam lurus di atas itu. (Ray Smith, 2007)
9.3.2.3 Fixed Pitch Detection and Chopping
Kata-kata yang mengandung karakter semua dengan lebar yang
sama diperlakukan sebagai kasus khusus di Tesseract. Tesseract
menguji garis teks untuk mengetahui apakah atau tidak mereka lebar
yang sama, atau pitch fixed. Ketika ia menemukan pitch fixed teks,
Tesseract splices kata sama berdasarkan pitch, dan Kata diberi tanda
siap pengenalan kata. Pada bagian berikutnya, kita akan memperluas
mengapa ini diperlukan. Gambar 2.8 menunjukkan dan contoh pitch
fixed (pitch n) teks dan bagaimana Tesseract mungkin memotong itu.
(Brian, 2012)
4
9.3.3
Word Recognition
associator
tersebut.
Pada
tahap
ini,
blobs
terputus
Classification
9.3.5Adaptive Classifier
Telah mengemukakan dan menunjukkan bahwa OCR mesin bisa
mendapatkan keuntungan dari penggunaan adaptif classifier. Karena classifier
statis harus pandai generalisasi terhadap segala jenis font, kemampuannya
untuk membedakan antara karakter yang berbeda atau antara karakter dan
non-karakter menjadi lemah. Yang lebih fontsensitive classifier adaptif yang
dilatih oleh output dari classifier statis karena itu sering digunakan untuk
mendapatkan pembedaan yang lebih besar dalam setiap dokumen, di mana
jumlah font terbatas..(Kalivani et all,2014)
Tesseract tidak menggunakan classifier Template, tapi menggunakan
fitur yang sama dan classifier sebagai statis classifier. Satu-satunya perbedaan
yang signifikan antara classifier statis dan classifier adaptif, terlepas dari data
training, adalah bahwa penggunaan classifier adaptif isotropik dasar / x-height
normalisasi, sedangkan classifier statis menormalkan karakter dengan pusat
massa (saat pertama) untuk posisi dan momen kedua untuk anisotropic
normalisasi ukuran. Baseline / x-height normalisasi memudahkan untuk
membedakan atas dan bawah karakter kasus juga sebagai meningkatkan
kekebalan terhadap bintik noise. Utama manfaat saat karakter normalisasi
adalah penghapusan Aspek rasio font dan beberapa derajat font Stroke lebar.
Hal ini juga membuat pengakuan sub dan superscripts sederhana, tetapi
membutuhkan tambahan feature classifier untuk membedakan beberapa atas
dan bawah karakter kasus.
9.4 Model pengembangan waterfall
Waterfall model mengambil kegiatan proses dasar spesifikasi, pengembangan,
validasi, dan evolusi dan mewakili kegiatan tersebut sebagai fase proses terpisah
10