ABSTRACT
This study presents a software system which is capable of detecting and estimating the position
of the object to the camera. The system will make use of 3D information obtained from a stereo
reconstruction. 3D points reconstructed within the space of interest (SOI) are grouped into objects using
clustering algorithm, DBSCAN and the number of points in a cluster formed. System evaluation uses one
to two objects with both same and different size as well as the position of the X, Z and three different light
levels. There are a total of 24 conditions used to test the system. The experimental results show that the
system can detect objects well with an average position error obtained is relatively small and is under
10cm.
ABSTRAK
Penelitian ini mempresentasikan sebuah software sistem yang mampu mendeteksi dan
mengestimasi posisi objek terhadap kamera. Sistem akan memanfaatkan informasi 3D yang diperoleh
dari rekonstruksi stereo. Titik-titik 3D hasil rekonstruksi yang berada dalam space of interest (SOI) akan
dikelompokkan menjadi objek menggunakan algoritma clustering, DBSCAN dan jumlah titik dalam
kluster yang terbentuk. Untuk menguji sistem digunakan satu hingga dua buah objek dengan ukuran yang
sama dan berbeda serta posisi X, Z dan 3 tingkat pencahayaan yang berbeda. Terdapat total 24 kondisi
yang digunakan untuk menguji sistem. Dari hasil percobaan diperoleh bahwa sistem dapat mendeteksi
objek dengan baik dengan rata-rata error posisi yang diperoleh relatif kecil dan berada dibawah 10cm.
Beberapa tahun terakhir ini, terlihat perkembangan penelitian yang pesat pada berbagai
bidang ilmu komputer, termasuk computer vision. Hal ini terjadi karena adanya minat dari para
peneliti dan juga permintaan dari dunia industri dan masyarakat akan kemampuan baru yang
dapat diberikan oleh komputer. Salah satu kemampuan yang paling diinginkan adalah
rekonstruksi otomatis dan analisis lingkungan 3D serta rekognisi objek pada ruang tersebut. 3D
computer vision ini dapat digunakan untuk melakukan navigasi otomatis dari robot dan
kendaraan, mengontrol lengan robot yang digunakan dalam industri, atau membuat model 3D
dari suatu objek berdasarkan informasi 2D.
Mengetahui perkembangan algoritma pada computer vision yang begitu pesat dan harga
kamera yang semakin terjangkau, peneliti menerapkan stereo vision system yang menggunakan
kamera sebagai sensor dan meniru cara kerja dari mata manusia untuk memperoleh informasi
3D. Informasi ini nantinya digunakan untuk mendeteksi dan mengestimasi posisi objek.
Keunggulan penggunaan kamera sebagai sensor dibandingkan dengan laser atau gelombang
radio adalah diperolehnya informasi mengenai warna objek yang dapat digunakan sebagai salah
satu faktor penentu dalam proses rekognisi objek.
Masalah yang ditemui pada saat menggunakan stereo vision adalah estimasi disparity
map yang akurat. Nilai disparity ini sangat bergantung pada hasil pencarian pasangan antara
pixel gambar kiri dan kanan. Proses pencarian ini adalah suatu proses yang sulit dan
membutuhkan waktu yang tidak sedikit, tentunya proses ini juga dapat menghasilkan kesalahan.
Para peneliti sebelumnya telah menerapkan beberapa cara untuk mengatasi masalah ini, seperti
membatasi proses pencarian pasangan pixel hanya pada pixel yang merupakan tepi (edge) dan
mengeliminasi pixel yang memiliki pasangan yang ambigu (terdapat lebih dari satu pixel yang
mirip dengan pixel acuan).
Selain memperoleh informasi kedalaman, masalah lain yang dihadapi adalah cara untuk
mendeteksi objek yang ada. Dalam metode pemrosesan gambar, pada umumnya terdapat dua
klasifikasi cara yang dapat diterapkan, yaitu menggunakan informasi dari satu kamera, seperti
segmentasi berdasarkan tepi atau tekstur benda, dan dua (atau lebih) kamera, yaitu stereo vision.
B = B1 + B 2 = D tan ϕ1 + D tan ϕ 2
B
D=
tan ϕ1 + tan ϕ 2 (1)
x1 tan ϕ1
=
x0 ⎛ϕ ⎞
tan ⎜ 0 ⎟
2 ⎝ 2 ⎠
− x2 tan ϕ 2
=
x0 ⎛ϕ ⎞
tan ⎜ 0 ⎟
2 ⎝ 2 ⎠ (2)
Dari persamaan error deteksi kedalaman ( ΔD ) ini, terlihat bahwa keakurasian deteksi
dengan menggunakan metode ini bergantung pada beberapa variabel yaitu, field of view dari
kamera, baseline dan resolusi gambar yang digunakan. Pada metode ini, proses pendeteksian
objek masih dilakukan secara manual. Dengan kata lain proses pendeteksian ditentukan oleh
pengguna; hanya proses pencarian nilai disparity-nya yang dilakukan secara otomatis. Hasil
percobaan yang diperoleh menunjukkan bahwa metode ini memiliki tingkat keakurasian yang
lebih baik jika baseline yang digunakan lebih besar.
Pada penelitian ini digunakan metode yang dikembangkan oleh Nedevschi, et al.,
(2004), yaitu 3D Reconstruction. Dalam metode ini, dilakukan rekonstruksi 3D secara
menyeluruh untuk mendeteksi dan mengestimasi posisi objek. Titik-titik 3D hasil rekonstruksi
akan dikelompokkan menjadi objek berdasarkan tingkat kepadatannya. Titik 3D yang terlalu
jauh atau terlalu tinggi juga dieliminasi dan sisanya berada dalam suatu ruang yang dinamakan
SOI (Space of Interest). Asumsi lain yang diaplikasikan adalah tidak ada objek yang berada
diatas objek lainnya. Dengan demikian proses clustering atau pengelompokkan dapat dilakukan
dalam bidang XOZ, hasil rekonstruksi dilihat dari atas. Daerah dengan kepadatan titik 3D yang
tinggi merepresentasikan dan menyatakan posisi dari objek.
Sebelum melakukan pengelompokkan, pada metode ini dilakukan proses kompresi
terlebih dahulu, karena titik-titik 3D semakin jarang seiring dengan bertambahnya kedalaman.
Persamaan kompresi yang digunakan adalah:
Z
row = log k
1+ Z min
f
col = X .Scale( Z )
1
Scale( Z ) = f . .k
Z
dengan,
Z = kedalaman
f = kamera focal length
k = konstanta yang memenuhi kondisi: (1) tidak membagi sebuah objek menjadi beberapa
objek; (2) tidak menggabungkan beberapa objek menjadi satu objek.
Dengan menggunakan metode ini berbagai jenis objek dapat dideteksi secara otomatis
dan diestimasi posisinya dengan batasan bahwa objek memiliki tingkat kepadatan titik 3D yang
cukup tinggi.
Pada penelitian ini digunakan ELAS (Geiger, et al., 2010) untuk memperoleh disparity
map dari pasangan gambar yang ada. Keunggulan dari metode ini adalah kecepatan proses
matching pada gambar beresolusi tinggi dan memiliki kemampuan untuk mengurangi
Tx
zw = f
disparity
Tujuan dari penelitian ini adalah membangun suatu software system untuk mendeteksi
dan mengestimasi posisi objek terhadap sebuah objek acuan berbasiskan stereo vision system.
Objek yang dideteksi dan diestimasi posisinya adalah objek yang berada di depan objek acuan.
METODE
Perangkat keras yang digunakan terdiri dari satu buah kamera stereo dan satu buah
notebook. Kamera yang digunakan adalah minoru 3D webcam dengan baseline sebesar ±60mm
dan dua buah kamera identik. Kamera digunakan untuk menghasilkan gambar input kiri dan
kanan yang nantinya akan diproses lebih lanjut. Ukuran gambar yang diambil adalah 640x480.
Notebook digunakan untuk memproses gambar input yang diperoleh dari minoru 3D webcam
untuk memperoleh informasi mengenai jumlah objek dan posisi objek yang terdeteksi terhadap
kamera.
Program utama secara umum sama seperti proses pengolahan gambar pada sistem yang
lain, yaitu terdiri dari image preprocessing dan image processing. Dalam penelitian ini tahapan
image preprocessing yang digunakan adalah proses grayscaling, filtering, dan pendeteksian
tepi. Untuk image processing atau pengolahan gambar terdiri dari proses stereo matching,
membangun disparity map, rekonstruksi 3D, kompresi titik 3D hasil rekonstruksi, clustering
dan estimasi posisi. Diagram alir program dapat dilihat pada Gambar 2.
Proses pengukuran jarak dan intensitas cahaya yang dilakukan pada penelitian ini dapat
dilihat pada Gambar 3 berikut ini:
Objek 1 kondisi 1-6 diambil dalam tiga rentang intensitas cahaya yang berbeda untuk
mengetahui pengaruh intensitas cahaya terhadap hasil deteksi. Ketiga rentang intensitas cahaya
yang digunakan adalah 6-47 lux, 158-245 lux dan 1666-1805 lux. Berikut ini adalah
perbandingan citra uji kondisi 1 pada ketiga rentang intensitas cahaya yang digunakan (Gambar
5):
dengan
Xmin = Nilai terkecil dari jarak objek terhadap kamera sejajar sumbu horizontal (X)
Xmax = Nilai terbesar dari jarak objek terhadap kamera sejajar sumbu horizontal (X)
Z = jarak objek terhadap kamera tegak lurus sumbu horizontal (X)
Setiap grafik terdiri dari 9 kondisi, yaitu kondisi 1-6 seperti yang terdapat pada Gambar
4 dan 3 kondisi tambahan untuk menyatakan objek II pada kondisi 4-6. Dari grafik Xmin
terdapat dua kondisi yang memiliki error lebih besar dibandingkan dengan kondisi yang
lainnya, yaitu kondisi 8 (objek II dari kondisi 5) dengan intensitas cahaya 6-47 lux dan kondisi 2
dengan intensitas cahaya 158-245 lux (Gambar 7). Hal ini terjadi akibat adanya noise yaitu titik
3D yang bukan merupakan bagian dari objek, namun terdeteksi sebagai bagian objek. Titik 3D
yang bukan merupakan bagian objek ini berasal dari edge yang terbentuk dari persambungan
antar papan yang digunakan untuk membentuk lingkungan pada saat perancangan.
G
Gambar 8 Dispa
arity map kon
ndisi 2 (6-47luux)
Disparityy map yang diperoleh taampak seperrti pada Gam mbar 8 kareena support point
hanyaa bisa ditemmukan pada daerah terssebut. Untuk k lebih jelassnya dapat ddilihat padaa hasil
pendeeteksian tepii yang meruupakan inputt untuk mem mbentuk dispparity map. B
Berikut ini adalah
a
hasil deteksi tepi pada gambarr kiri dan kannan (Gambarr 9):
44 Jurrnal Teknik Ko
omputer Vol. 21 No.1 Feb
ebruari 2013: 36-47
Untuk grafik Z, ada dua kondisi yang menarik perhatian yaitu kondisi 3 dan 5. Kedua
kondisi ini memiliki nilai error yang lebih besar dibanding kondisi yang lainnya. Berikut ini
adalah disparity map dari kedua kondisi tersebut (Gambar 10 dan 11):
Dari disparity map kondisi 5 terlihat bahwa nilai disparity dari objek yang berada di
sebelah kiri kamera lebih besar dibandingkan dengan nilai disparity dari objek yang berada di
sebelah kanan kamera. Perbedaan nilai disparity ini tidak terlalu besar berkisar pada rentang 3-4
satuan. Namun, perbedaan nilai ini akan menghasilkan error yang cukup berarti pada saat
menentukan kedalaman objek dalam satuan cm, yaitu pada kisaran 20cm (Gambar 12).
Penyebab dari perbedaan nilai disparity ini adalah nilai distorsi radial yang dimiliki oleh minoru
3D webcam cukup buruk, dengan nilai koefisien -0,0742 dan -0,4786. Nilai ini diperoleh dari
hasil kalibrasi yang telah dilakukan. Pengaruh dari nilai distorsi ini tidak terlihat secara kasat
mata, tapi nilai ini dapat mempengaruhi performa dari sistem (Mrovlje dan Vrancic, 2009).
Dilihat dari ketiga grafik pada Gambar 13 di bawah ini, dapat disimpulkan bahwa
intensitas cahaya 3, 1666-1805 lux memiliki tingkat keakurasian tertinggi. Hal ini terjadi karena
pada intensitas cahaya ini tepi akibat pertemuan antar papan yang digunakan untuk membentuk
lingkungan dapat tereliminasi dengan lebih baik dibandingkan dengan dua intensitas cahaya
yang lain
Dari Gambar 14 di bawah ini terlihat bahwa Time1, Time2, dan Time3 memiliki nilai
yang stabil, tetapi tidak dengan demikian dengan Time4. Hal ini terjadi karena waktu untuk
menyelesaikan proses DBSCAN bergantung pada jumlah data yang ada atau dalam penelitian
ini adalah jumlah titik 3D hasil rekonstruksi. Semakin banyak titik 3D yang ada, semakin lama
pula waktu yang diperlukan untuk menyelesaikan proses ini. Selain DBSCAN, proses yang
membutuhkan waktu lebih lama dibandingkan dengan proses yang lain adalah median filtering
(Time1). Dari data ini dapat diambil kesimpulan bahwa agar sistem dapat berkerja dengan lebih
cepat, perlu diimplementasikan metode filtering dan clustering lain dengan waktu proses yang
lebih singkat.
SIMPULAN
Dari hasil percobaan yang telah dilakukan dapat ditarik kesimpulan, yaitu: (1) masalah
stereo matching dan disparity dapat diselesaikan oleh ELAS, terbukti dari rata-rata error nilai Z
kurang dari 10cm dan waktu proses dibawah 100ms; (2) masalah deteksi objek dapat
Untuk mengembangkan sistem ini, ada beberapa hal yang dapat dilakukan oleh peneliti
selanjutnya, seperti: (1) mencoba mempersingkat waktu proses dari sistem dengan dua cara,
yaitu mengimplementasikan metode filtering yang lebih efektif (cepat dan akurat) dan
mengimplementasikan metode clustering dengan kecepatan proses yang tidak terlalu bergantung
pada jumlah data yang ada; (2) implementasi metode segmentasi yang mampu memisahkan
objek dari lingkungan khususnya permukaan jalan/alas dalam proses pengolahan gambar; (3)
implementasi suatu metode untuk mengkoreksi gambar yang terdistorsi atau gunakan kamera
stereo yang memiliki koefisien distorsi yang sangat kecil/bebas dari distorsi untuk memperoleh
pasangan gambar.
DAFTAR PUSTAKA
Geiger, A., Roser, M., Urtasun, R. (2010). Efficient Large-Scale Stereo Matching. Asian
Conference on Computer Vision (ACCV).
Mrovlje, J., Vrancic, D. (2008). Distance measuring based on stereoscopic pictures. 9th
International PhD Workshop on Systems and Control: Young Generation Viewpoint.
Mrovlje, J., Vrancic, D. (2009). Distortion impact on a stereo distance. 10th International PhD
Workshop on Systems and Control: Young Generation Viewpoint.
Nedevschi, S., Danescu, R., Frentiu, D., Marita, T., Oniga, F., Pocol, C., Graf, T., Schmidt, R.
(2004). High accuracy stereovision approach for obstacle detection on non-planar roads.
Proceedings of IEEE Intelligent Engineering Systems’04 (INES2004), 211 – 216.
Nedevschi, S., Danescu, R., Frentiu, D., Marita, T., Oniga, F., Pocol, C., Schmidt, R., Graf, T.
(2004). High accuracy stereo vision system for far distance obstacle detection. IEEE
Intelligent Vehicles Symposium, Parma (IV’04), 292 – 297.
Nedevschi, S., Danescu, R., Frentiu, D., Marita, T., Oniga, F., Pocol, C. (2004). Spatial
grouping of 3D points from multiple stereovision sensors. Proceedings of IEEE
International Conference on Networking, Sensing and Control, 874 – 879.
Salim, D., Suriani, V,. Andianto. (2009). Pengukuran Jarak dengan Stereo Eyes.
Skripsi tidak diterbitkan. Jurusan Sistem Komputer, Fakultas Teknik, Bina Nusantara
University, Jakarta.