Anda di halaman 1dari 49

TV 3D

3D Video Coding
Vedji Medhyci / 18113003
Dharma Favitri Hariyanto / 18113028
Sugih Gumilar / 18113035
Flabianos Ian Christian / 18113040
Video 3D atau terutama film animasi, saat ini sudah
berkembang dan sukses dinikmati pengguna dengan
karakteistik sebagai berikut :
Tampilan autostereoscopic (kaca bebas) mungkin siap
untuk memindahkan hiburan 3D.
Bitstream video multiview 3D dikodekan dengan spasial
dana tau temporal.
Kebutuhan bandwidth dan penyimpanan transmisi
meningkat.
7.1 INTRODUCTION

Bentuk paling sederhana dari TV 3D adalah TV 3D


stereoskopik (S3D), dimana layar hanya mampu
menampilkan dua pandangan, satu untuk setiap
mata, sehingga pemandangan itu dianggap 3D saat
mengenakan kacamata mata yang sesuai (3D).
Dengan demikian, tampilan seperti itu
memproyeksikan gambar stereoskopis ke penampil.
7.1 INTRODUCTION
7.1 INTRODUCTION

Definition for 3D:


2D = width + height
3D = 2D + depth
3D human perception:
Two eyes + brain
Dimana pada tampilan 3D terjadi karena adanya perbedaan
daya tangkap pada mata kiri dan kanan manusia untuk
memisahkan mata mana yang menangkap warna dan yang
melihat objeknya dimana sistem ini dikatakan stereoskopik
dan untuk memisahkan kedua tampilan tersebut maka
dibuthkan kacamata rana 3D.
7.1.1 3D Video Transmission and Coding
7.1.1 3D Video Transmission and Coding

Video 3D memerlukan dua atau lebih tampilan untuk


menghadirkan kedalaman stereoskopis. TV rana aktif dan
pemutar Blu-ray menggunakan frame-sequential atau
simulcast (satu saluran per mata) untuk pemutaran 3D
lokal. Ini memerlukan decoder video untuk beroperasi dua
kali lebih cepat untuk mendukung dua tampilan 3D atau
gambar. Selain itu, dengan menggunakan metode transmisi
3D ini setidaknya membutuhkan dua kali lipat bandwidth
untuk transmisi standar 2D.
7.1.2 View Multiplexing
Multiplexing melihat temporal atau spasial dapat digunakan untuk
menghadirkan layanan 3D tanpa meningkatkan bandwidth, seperti
yang ditunjukkan pada Gambar 7.1 dan 7.2. Dalam multiplexing
temporal, resolusi spasial penuh dari setiap tampilan dipertahankan
dengan mengorbankan resolusi temporal yang dikurangi.
7.1.2 View Multiplexing

Teknologi yang kompatibel dengan frame ini dirancang


untuk mengkonsumsi bandwidth yang sama sebagai
transmisi 2D dengan subsampling resolusi horizontal atau
vertikal masing-masing gambar dengan setengah sesuai satu
frame video.
7.1.3 View Expansion and Display
Dengan membelah setiap bingkai menjadi dua gambar, satu untuk
setiap mata, resolusi spasial horizontal atau vertikal dikurangi
untuk membentuk citra SbS atau sebagai gambar TaB.
TV 3D atau set top box (STB) menggandakan panjang setiap
gambar dan kemudian menampilkan gambar tersebut secara
berurutan untuk kacamata penglihatan pada frekuensi gambar
biasa.
Meskipun mungkin tidak ada artefak yang terlihat, keseluruhan
resolusi spasial dan kualitas gambar video S3D berkurang
dibandingkan dengan multiplexing temporal. Misalnya, resolusi
video 1080p (sekitar 2 juta piksel) segera dikurangi ke tingkat yang
sama dengan 720p (sekitar 1 juta piksel) dengan kemasan tampilan.
7.1.4 View Packing Methods
- Pada multiplexing SbS, kolom sampel alternatif di setiap
tampilan dilepaskan dan sampel sisanya digabungkan.
- Pada multiplexing TaB, baris sampel alternatif di setiap
tampilan akan dihapus dan sampel yang tersisa digabungkan
Sampel alternatif dari setiap baris sampel dapat dilepas, sehingga
menghasilkan pola kotak-kotak (juga disebut quincunx), yang bisa
berupa baris atau kolom yang dikemas. Pengulangan sampel
pengambilan sampel biasanya diterapkan untuk mengemas dua
tampilan stereo dalam satu bingkai. Dua atau lebih iterasi
diperlukan untuk mengemas empat atau lebih tampilan. Setiap
iterasi menghilangkan jumlah sampel yang sama, yang secara
efektif mengurangi resolusi spasial dari masing-masing tampilan
hingga setengahnya.
7.2 MULTIVIEW CODING
Multiview coding (MVC) menggunakan prediksi antara view yang berbeda
untuk mengeksploitasi redundansi dan meningkatkan effciency coding.
H.264 memiliki ekstensi MVC yang menyediakan teknik baru untuk
mengurangi kompleksitas decoding dan operasi multiview yang terukur,
termasuk menandai frame referensi dan switching tampilan yang efisien,
seperti menggunakan sequence parameter sets yang berbeda (SPSS).
Demikian pula, HEvc juga menyediakan ekstensi MVC dan melayani video
UHD 3D.
7.2 MULTIVIEW CODING
Untuk mengaktifkan upgrade firmware, multiview HEVC hanya berisi
perubahan sintaks tingkat tinggi dibandingkan dengan HEVC dan tidak ada
perubahan pada proses tingkat blok. Setiap proses tingkat blok yang berguna
untuk tampilan multiview HEVC hanya dapat diaktifkan dengan menggunakan
hook. Motion prediction hooks tidak secara signifikan mempengaruhi single-
view HEVC coding karena mereka dirancang untuk memperbaiki inter-view
coding. Karena TV 2D masih lazim, standar MVC mencapai backward
compability dengan mendefinisikan bitstream sehingga decoder 2D yang sesuai
dapat memecahkan kode satu tampilan 2D dan membuang sisa data sedangkan
sebuah decoder MVC yang sesuai dapat memecahkan kode semua view dan
menghasilkan video 3D.
MVC menggunakan cara yang efisien untuk menyangga frame yang digunakan
untuk prediksi, dan dapat memungkinkan pemrosesan paralel terhadap
beberapa view.
7.2.1 MVC BITSTREAM
Sebuah bitstream MVC terdiri dari base view dan satu atau lebih nonbase view
(sekunder). Untuk meningkatkan efisiensi, nonbase view dapat memanfaatkan view
lain untuk prediksi antar-tampilan menggunakan motion temporal tools seperti vektor
disparitas. Selain itu, proses parallel decocding pada supplementary enhancement
information (SEI) memberikan coded views dengan batasan (constraints) sistematis
sehingga sebuah macroblock (MB) dalam specific view hanya bergantung pada subset
MB yang didekode dalam view lain.
Sementara MVC tidak menambahkan alat pengkodean baru, seperti new MB modes, di
codec utama seperti H.264 atau H.265, MVC hanya menentukan sintaks tingkat tinggi
baru untuk unit network abstraction layer (NAL) dan header slice. Misalnya, unit NAL
dengan tipe baru yang disebut coded MVC slice digunakan untuk mengkodekan
nonbase view, terdiri dari header 4 byte baru yang mencakup priority ID, temporal
ID, anchor frame flag, dan inter-view flag. Anchor frames dapat didekode tanpa
frame sebelumnya dan berfungsi sebagai randome acces points. Random access pada
non intracoded frame juga dimungkinkan dengan menggunakan gradual decoding
refresh (GDR). Anchor dan nonanchor frame dapat memiliki dependensi yang
berbeda, yang dapat ditandai pada SPS.
7.2.2 2D to 3D CONVERSION
Konversi yang efisien dari video 2D yang ada ke 3D telah menjadi komponen utama produksi dan
pengiriman konten 3D. Salah satu cara untuk mengkonversi 2D ke 3D adalah dengan menghasilkan
depth map atau view dependency tree pada decoder. MV yang diterima dapat digunakan untuk
derive pergerakan objek pada dua frame berurutan. Dengan demikian, depth information tidak
perlu dikirim, sehingga menghemat bandwidth.
Sebagai alternatif, metode 2D plus depth atau 2D plus difference dapat diterapkan. 2D plus depth
telah dikembangkan untuk mendukung tampilan multiview dan freeview, bukan display
stereoskopis. Dengan freeviewing, baik gambar kiri maupun kanan selalu terlihat. Kacamata 3D
memungkinkan mata kiri melihat gambar yang ditujukan untuk mata kiri.
Pada 2D plus difference, tampilan utamanya adalah tampilan kiri sedangkan bedanya adalah
tampilan kiri minus tampilan kanan. Perbedaan ini harus mengandung lebih sedikit informasi
daripada tampilan yang seharusnya. Tampilan kiri dan kanan dapat digabungkan secara temporer
menjadi satu bitstream MVC tunggal dengan alternating frames atau bidang dalam pola sekuensial
kiri-kanan-kiri-kanan, yang mempertahankan resolusi spasial penuh dengan mengorbankan resolusi
temporal.
7.2.3 MULTIVIEW CODING EXTENSION

Software referensi JM berisi open source code yang


mengimplementasikan ekstensi MVC H.264.
Perangkat lunak ini mendukung dua atau lebih
tampilan untuk 3DDisplays S3D dan
autostereoscopic. Meski full-resolution views lebih
umum, packed views juga bisa digunakan. View
merupakan masukan (input) sebagai video
terpisah ke encoder, yang menghasilkan satu file
dengan temporally multiplexed MVC-encoded
views. View ini ditampilkan sebagai video terpisah
di dekoder. Beberapa video HD rate variabel (VBR)
yang dikodekan dalam H.264 diuji dan tercantum
dalam Tabel 7.1 dan 7.2.
7.2.3 MULTIVIEW CODING EXTENSION
7.2.3 MULTIVIEW CODING EXTENSION
7.2.4 MVC INTER-VIEW PREDICTION
Konsep dasar inter-view prediction adalah
memanfaatkan temporal motion tools seperti
vektor disparitas. Hal ini dimungkinkan oleh
pilihan MVC Enablelnterview pada perangkat
lunak JM.
7.2.4 MVC INTER-VIEW PREDICTION

Gambar 7.3 (a) menunjukkan simulator H.264 simulcast dari tampilan


kiri dan kanan video S3D menggunakan IPB group of pictures (GOP).
Gambar 7.3 (b) menunjukkan pengkodean MVC dari view kiri dan
kanan dari video yang sama.
7.2.4 MVC INTER-VIEW PREDICTION
Untuk pengkodean H.264 simulcast, redundansi temporal
(antar frame) dan intraview spatial redundancy (dalam
frame yang sama) dieksploitasi untuk mendapatkan coding
gain.
Namun, untuk pengkodean MVC, selain redundansi temporal
dan redundansi spasial intraview, inter-view temporal
redundancy antar view dalam frame yang sama dieksploitasi
untuk mencapai efisiensi pengkodean yang lebih tinggi.
Untuk mengurangi kompleksitas, hanya nonbase view yang
dilakukan proses inter-view predicted menggunakan base
view.
Base view dikodekan dengan cara yang mirip dengan
pengkoden pada single-view H.264. Hal ini juga membantu
decoder H.264 yang ada (tidak mendukung MVC) untuk
memecahkan kode single-view dari MVC-encoded 3D video
, sehingga menjaga backward compability.
7.2.4 MVC INTER-VIEW PREDICTION
Karena prediksi bersifat adaptif, prediktor terbaik di antara
referensi temporal dan antar-view dapat dipilih pada basis
MB. MVC memanfaatkan kemampuan pengelolaan frame
referensi yang fleksibel yang sudah tersedia di H.264 dengan
membuat frame yang didekode dari view lain yang tersedia
sebagai frame referensi untuk inter-view prediction.
Secara khusus, daftar frame referensi dipelihara untuk setiap
frame yang akan diterjemahkan dalam view tertentu. Setiap
daftar diinisialisasi seperti pada single-view video, yang
mungkin termasuk frame referensi temporal yang digunakan
untuk memprediksi frame saat ini.
Selain itu, frame referensi antar-view disertakan dalam
daftar dan tersedia untuk prediksi gambar saat ini. MVC
tidak mengizinkan prediksi pada sebuah frame dalam satu
view pada waktu tertentu menggunakan frame dari view lain
pada waktu yang berbeda.
7.2.5 MVC INTER-VIEW REORDERING
Sama seperti memungkinkan bagi encoder
untuk menyusun ulang posisi frame referensi
dalam daftar frame referensi (termasuk frame
referensi temporal), MVC juga dapat
menempatkan frame referensi antar-view pada
setiap posisi yang diinginkan dalam daftar.
Tingkat MB inti (core MB Level) dan modul
decoding tingkat rendah pada dekoder MVC
sama, terlepas dari apakah frame referensi
adalah referensi temporal atau inter-view.
7.2.6 MVC PROFILES
Saat ini, ada dua profil yang didefinisikan
oleh MVC: multiview high profile dan stereo
high profile. Kedua profil didasarkan pada
profil utama H 264 dengan perbedaan
berikut:
Multiview high profile mendukung
beberapa tampilan dan tidak mendukung
interlace coding tools;
Stereo high profile (didukung oleh Blu-ray)
terbatas pada dua view dan mendukung
interlace coding tools.
7.2.7 Comparing MVC with 2D H.264
Video Coding
MVC membutuhkan kompleksitas encoding/decoding yang
lebih tinggi daripada pengkodean video 2D H.264 karena
multiple views dari berbagai video
dikodekan/diterjemahkan secara bersamaan untuk
mengeksploitasi redundansi spasial.
7.2.7 Comparing MVC with 2D H.264
Video Coding
7.2.7
7.2.7 Comparing MVC with 2D H.264
Video Coding
Namun, seperti ditunjukkan pada Tabel 7.3, peningkatan efisiensi
pengkodean untuk MVC marjinal bila dibandingkan dengan H.264
(kurang dari 1% untuk S3D 2-view). Kualitas video hampir tidak
terpengaruh.
Selain overhead bit yang lebih tinggi yang terkait dengan pengkodean
MVC (karena kebutuhan untuk prediksi antar-tampilan), alasan
utama untuk fenomena ini dibahas pada bagian berikutnya.
Perhatikan bahwa gabungan ukuran file yang dikodekan untuk
tampilan kiri dan kanan serupa untuk MVC dan H.264.
Tabel 7.4 menunjukkan peningkatan efisiensi pengkodean karena
jumlah penayangan per frame meningkat atau setara, karena resolusi
video untuk setiap tampilan menurun (3,5% untuk 4 tampilan).
Selain itu, ukuran file H.264 untuk video 4-packed kira-kira sama
dengan video 2-packed jika resolusi video sama.
7.3 CORRELATION BETWEEN LEFT AND RIGHT
VIEWS IN S3D VIDEOS
7.3 CORRELATION BETWEEN LEFT AND RIGHT
VIEWS IN S3D VIDEOS

(a) Y-PSNR tampilan benar bila dibandingkan dengan


tampilan kiri untuk Avatar.
(b) Perbaikan Y-PSNR maksimal saat mengalihkan
pandangan benar Avatar.
(c) Y-PSNR dari Magicforest Right View bila
dibandingkan dengan Magicforest Left View.
(d) Peningkatan Y-PSNR maksimal saat mengubah
Tampilan Benar Sihir.
7.3 CORRELATION BETWEEN LEFT AND
RIGHT VIEWS IN S3D VIDEOS

Hasil ini menunjukkan bahwa metode interpolasi sampel


antar-pandang dapat menyebabkan degradasi kualitas
video, terutama untuk video resolusi tinggi. Selain itu,
metode ini menciptakan ketergantungan antara pandangan
dan memerlukan waktu pemrosesan lebih banyak
dibandingkan metode intraview. Dengan demikian, MVC
mungkin tidak memberikan efisiensi pengkodean yang
signifikan bila dibandingkan dengan H.264.
7.4 VIEW EXPANSION VIA SAMPLE
INTERPOLATION
Sample interpolation adalah teknik penyembunyian yang
digunakan oleh banyak vendor HDTV untuk meningkatkan
kualitas visual dan frame rate film aksi cepat dan olahraga,
bahkan saat pengambilan video asli digunakan frame rate
yang rendah.
7.4.1 Impact of Sample Interpolation
Penghilangan sampel row-column secara konsisten
menghasilkan kualitas visual yang lebih baik
daripada pengambilan sampel checkerboard
(mungkin karena pengambilan sampel dan
interpolasi lebih terstruktur) meskipun rata-rata Y-
PSNR rata-rata untuk kedua metode tetap tinggi.
Penghapusan sampel checkerboard juga
menghasilkan kode H.264 yang kurang efisien. Hal
ini dapat dilihat dengan mengevaluasi ukuran file
H.264 untuk Magicforest Left View setelah satu
iterasi dari penghapusan baris, kolom, checkerboard
(column packed), dan checkerboard (row packed).
7.4.1 Impact of Sample Interpolation
7.4.1 Impact of Sample Interpolation
7.4.1 Impact of Sample Interpolation
7.4.1 Impact of Sample Interpolation
Nilai Y-PSNR diperoleh dengan menggunakan kolom atau
metode penyalinan baris (yaitu, tidak ada interpolasi).
Metode ini saat ini digunakan saat penglihatan unpacked
dan diperluas, dan jelas lebih unggul daripada skema
interpolasi. Dalam kasus ini, nilai Y-PSNR sama terlepas
dari apakah pengecekan sampel checkerboard atau sampel
column dilakukan selama packing.
7.4.1 Impact of Sample Interpolation

Seperti yang bisa dilihat, sampai delapan kali


efisiensi kompresi bisa dicapai dengan
mempertahankan rata-rata Y-PSNR tinggi.
Interpolasi row-column mencapai kualitas yang
lebih baik daripada interpolasi checkerboard.
7.4.2 Inter-view vs Intraview
Sample Interpolation
Untuk interpolasi intraview, dua sampel tetangga
vertikal dipilih. Untuk contoh sampel antar sampel,
sampel yang hilang dari tampilan dasar diperoleh
dari sampel yang sesuai pada tampilan nonbase.
Interpolasi inter-view menggunakan dua sampel
tetangga vertikal dari tampilan dasar, dua sampel
tetangga horizontal dari nonbase serta sampel
dalam tampilan nonbase yang sesuai dengan posisi
sampel yang hilang pada tampilan dasar.
7.4.2 Inter-view vs Intraview Sample
Interpolation

Kualitas video menggunakan interpolasi antar-


sampel sangat terdegradasi, sekali lagi
menunjukkan kurangnya korelasi langsung antara
tampilan.
7.4.3 Interframe vs Intraview Sample
Interpolation

Pada Gambar (a), interpolasi intraview dilakukan


dengan menggunakan sampel tetangga kiri dan kanan.
Pada Gambar (b), sampel yang sesuai dari kerangka
sebelumnya digunakan untuk mengganti sampel yang
hilang.
7.4.3 Interframe vs Intraview Sample
Interpolation

Seperti yang bisa dilihat, kualitas video membaik melalui


interpolasi intraview sampai terjadi perubahan gradual.
Korelasi dengan frame sebelumnya melemahkan akibat
perubahan adegan ini, mengurangi keefektifan salinan
sampel antar frame. Gambar 7.9 (c) menunjukkan solusi
terpadu dimana sampel kiri dan kanan, dan sampel yang
sesuai dari frame sebelumnya dirata-ratakan untuk
memprediksi nilai sampel yang hilang. Dalam hal ini, kualitas
video menjadi lebih konsisten.
7.4.4 Impact of Quantization on
Interpolated S3D Videos
Kualitas video dasar terdegradasi oleh penghapusan sampel
dalam kemasan tampilan. Kehilangan setengah sampel dalam
tampilan dengan setiap iterasi pengambilan sampel dapat
memiliki dampak yang merugikan pada kualitas video.
Multiplexing spasial memerlukan subsampling bingkai video
asli, yang lebih mengganggu encoder daripada multiplexing
temporal. Ini dapat dibandingkan dengan penggunaan
pembatasan rasio yang digunakan oleh beberapa encoders
video (mis., VBR, CBR yang dibatasi) yang menyebabkan
pengkodean atau kualitas video yang kurang efisien.
Interpolasi sampel temporal berdasarkan vektor gerak dapat
digunakan untuk mengurangi frame rate kode setengah atau
kurang, selanjutnya meningkatkan efisiensi pengkodean.
7.5 Membuat 3D Anaglyph
Persamaan 7.1

Vektor [ra, ga, ba] mewakili komponen warna merah, hijau, dan biru
(RGB) dari anaglyph yang dioptimalkan. Vektor [r1, g1, b1] dan [r2, g2,
b2] mewakili komponen warna RGB dari pandangan kiri dan kanan
masing-masing.
Cara Kerja : Gambar 3D Anaglyph yang telah di buat awalnya adalah
gambar stereo yang disatukan dengan warna berbeda. Gambar stereo
yang berupa foto di ambil dari dua tempat yang berbeda. Sama seperti
mata kita yang ada dua pada tempat yang berbeda. Nantinya dengan
kacamata 3D gambar yang sudah anaglyph akan terlihat berbeda di
masing-masing mata. Mata kiri hanya melihat gambar kiri sedangkan
mata kanan hanya melihat gambar yang kanan
Pengetahuan
Anaglyph adalah technology menggabungkan 2
gambar berbeda menjadi satu, namun di buat
bagaimana mata kiri dan kanan melihat gambar
berbeda.
Gambar yang di buat dengan technology
anaglyph disebut gambar stereoscopic atau
gambar stereo.
Interpolasi adalah cara menentukan nilai yang
berada di antara dua nilai diketahui berasarkan
suatu fungsi persamaan
7.5.1 Efisiensi Pengkodean H.264 untuk
Video Anaglyph
Tabel disamping menunjukan
efisiensi pengkodean H.264
untuk video anagly.
Ukuran rata-rata dihitung
sebagai (ukuran tampilan kiri +
ukuran tampilan kanan) / 2.
Permukaan relatif dihitung
sebagai (ukuran rata-rata
anaglyph ) / (ukuran rata-rata)
100%.

Interpolasi pertama kali dilakukan pada file video YUV mentah


Forest, Coke, dan Flowers untuk mengubah tampilan yang dikemas ke
resolusi asli. File YUV kemudian diubah menjadi format RGB untuk
menghasilkan anaglyph, yang diubah kembali menjadi YUV untuk
pengkodean H.264. Ukuran file anaglyf yang dikodekan H.264 dapat
diprediksi karena kira-kira sama dengan jumlah 1/3 ukuran file
tampilan kiri dan ukuran file tampilan kanan 2/3.
7.5.2 Analisa Delta
Penggunaan nilai delta untuk mewakili perbedaan antara
nilai sampel asli dan nilai yang diperoleh dengan
menggunakan interpolasi dapat meningkatkan kualitas
visual video yang direkonstruksi. Secara teori, nilai delta
dapat berkisar dari -255 sampai +255.
Beberapa pendekatan yang dipakai pada analisa delta
adalah
a. Set 0 Delta
b. Set 1 Delta
c. Set 2 Delta
d. Set 3 Delta
e. Set 4 Delta
7.5.3 Membuat Disparity Vector
Perkiraan disparitas berguna untuk memulihkan peta kedalaman
sepasang tampilan stereo dan berpotensi meningkatkan kualitas
video dari video S3D. Metrik kualitas meliputi kedalaman,
misalignment vertikal, dan konsistensi temporal. Ini dapat
digunakan untuk mengurangi kebutuhan bandwidth atau
memperbaiki kualitas video dari tampilan dasar.
Cara kerja :
Dua tampilan video S3D dilewatkan ke algoritma pembangkitan
vektor disparitas yang memisahkan setiap frame tampilan
nonbase menjadi blok N N dari sampel. Untuk setiap blok
sampel dalam tampilan nonbase, algoritma mencoba untuk
menemukan kecocokan terbaik berdasarkan jumlah perbedaan
absolut (SAD) dengan blok dari tampilan dasar pada baris yang
sama (yaitu, paralaks vertikal antara kedua pandangan
diasumsikan sebagai nol).

Anda mungkin juga menyukai