Anda di halaman 1dari 7

Perkanalan dan penjelasan dari konsep tampilan anotasi

Interpretasi Konsep

1. vad adalah garis pembagi (tujuan dari menambahkan garis pembagi adalah untuk
menghilangkan konten invalid yang tidak diperlukan dan menandai bagian audio yang valid)

Garis vertikal putih,

Yaitu, vad (garis pembagi). Tiap-tiap vad dapat digeser ke kiri dan kanan untuk disesuaikan
dengan posisinya, atau ditambah atau juga dihilangkan. Vad perlu untuk diletakkan pada
posisi yang sesuai,dan teks dari konten perlu untuk dimodifikasi. Audio dalam area vad harus
sesuai dengan teks yang ada.

Menambah vad: letakkan kursor pada titik yang diinginkan. Klik untuk memunculkan sat
ugaris merah putus-putus, klik [+vad] atau tekan tombol shortcut [S]

Menambahkan vad di waktu yang bersamaan: Jika ingin menambahkan vad pada titik A
and B, tekan dan tarik kursor untuk memilih area ini, dan tekan tombol shortcut [S] untuk
menambahkan dua garis pembagi pada titik A dan titik B.

Menghapus vad yang telah tergabung: tekan dan Tarik kursor untuk memilih area vad yang
ingin dihapus, dan klik [- vad] atau tombol shortcut [C]
Prinsip penandaan

1) Modifikasi teks, atur dan tingkatkan/kurangi garis pembagi. Dan tambahkan label
yang sesuai dengan konten audio dan spesifikasinya, sehingga kata-kata yang ada konsisten
dengan audio yang ada dalam setiap segman vad. Hasil transkripsi oleh mesin yang
terpampang pada awal audio hanyalah untuk referensi dan harus dimodifikasi.

2) Satu segmen vad hanya untuk satu pembicara, dan konten dari beberapa pembicara masing-
masing perlu dibuat segmen terpisah.

Aturan segmentasi:

Usahakan untuk membuat segmen pada akhir tanda baca untuk memastikan keterkaitan
makna kalimat.

1) Segmentasi diperlukan karena adanya pembatasan karakter (tidak lebih dari 120
karakter);

2) Karena durasi vad duration, segmentasi juga diperlukan. Satu segmen vad harus diatur
dibawah di bawah 15 detik dan harus dipastikan kalimatnya mempunyai makna;

3) Pembicara yang berbeda harus dibuatkan segmen vad yang berbeda saat mereka
berbicara;

4) Bagian yang tidak bias ditandai harus dipotong

Bagian yang tidak bisa ditandai = durasi invalid, tambahkan sat ugaris pembagi untuk
menentukan durasi dari bagian ini, dan pilihlah label yang sesuai.

Jika suara bising, suara diam, overlap, dll. terjadi lebih dari 1 detik, maka perlu disegmen dan
diberi label yang sesuai;

Tepuk tangan, tertawa, bahasa lain selain bahasa Indonesia, iklan, suara nyanyian berulang
dalam film dan acara TV, dan suara music tanpa lirik juga dianggap sama;

Catatan: Jika kata-kata yang diucapkan oleh pembicara dalam audio terdapat suara ding ding,
maka transkrip saja sebagai ding ding ding berdasarkan pelafalan the normal pronunciation.
Jika keseluruhan vad adalah lagu tema dari host, kategorikan sebagai <DEAF>

Label durasi invalid:

<NOISE> berarti suara yang bukan suara manusia, seperti suara bel.

<DEAF> menandakan suara manusia, termasuk bahasa lain selain bahasa Indonesia, iklan, suara
nyanyian, dan sebagainya.

<OVERLAP> berarti beberapa orang berbicara di waktu yang bersamaan: suara manusia
bercampur, susah untuk didengar, dan teks tidak dapat ditranskrip.
Catatan: Jika beberapa orang berbicara di waktu yang bersamaan dan pembicara utama dapat
terdengar dengan jelas, data pembicara utama harus ditranskrip.

4、 Spesifikasi Transkripsi konten

Ketik transkripsi berdasarkan suara manusia dalam audio dan sesuai dengan tanda baca. Karakter
dalam satu segmen suara harus saling berhubungan satu sama lain, tanpa kata yang diulang,
hilang, ataupun salah. Akurasi teks yang ditranskripsi (termasuk akurasi teks, akurasi label, dan
akurasi batas segmen dari segmen sudio yang efektif) tidak boleh kurang dari 95%;

Catatan: Jika ada pertanyaan tentang ejaan yang benar, bisa dicari di : https://kbbi.web.id/
(1) Aturan tagging bahasa campuran

1. Jika kata Bahasa Inggris terdengar dalam audio, maka harus ditranskrip sesuai pelafalan dalam
Bahasa Inggris seperti yang terdengar dalam audio. Jika pelafalan dalam kata Bahasa Inggris,
maka harus ditranskrip dalam kata Bahasa Inggris. Jika shop dibaca shop, maka harus ditranskrip
sebagai shop. Jika pelafalan dalan audio adalah bahasa Indonesia, maka harus ditranskrip dalam
bahasa Indonesia.

2. Jika ada kalimat dalam bahasa Mandarin, bahasa Inggris dan bahasa lain selain bahasa
Indonesia, maka harus dipisahkan dan ditandai sebagai <DEAF>. Jika bahasa lain hanya berupa
suara background, yang mana suaranya sangat kecil sehingga tidak dapat didengarkan dengan
jelas, maka anggap saja sebagai bahasa Indonesia, tanpa perlu mentranskrip isinya dalam bahasa
lain.

3. Kata-kata dengan pelafalan bahasa Inggris yang sederhana dalam kalimat harus ditranskrip
sesuai dengan ejaannya dalam bahasa (tidak lebih dari 3 kata), dua kata

Tambahkan spasi diantara kata bahasa Inggris . Contoh: Thank you

4. Kata dalam bahasa Indonesia and bahasa Inggris ditulis dalam berbagai bentuk.
Direkomendasikan untuk menggunakan kata-kata berikut dalan satu kesatuan.
di-check out,di-payment, di-share, ter-update, voucher voucher-nya, check out-nya

(2) Kasus dan tanda baca

Kasus:

Kapitalisasi huruf pada awal kalimat, kata benda tertentu, nama orang, nama tempat, dll.

Tanda baca: Hanya 5 tanda baca, seperti koma, titik, tanda Tanya, tanda seru, dan tanda hubung
(,.?! -), yang harus ada dalam kalimat, dan didukung dalam bahasa Indonesia. Jangan gunakan
tanda baca selain ini, dan jangan gunakan tanda baca bahasa Mandarin.

Modifikasi berdasarkan keutuhan kalimat didahulukan daripada segmentas (contoh, jika kalimat
terlalu panjang dan dibagi menjadi dua kalimat, kata pertama dalam kalimat kedua tidak perlu
huruf capital, dan tanda baca di akhir kalimat pertama dapat ditulis, ataupun bisa juga
dihilangkan);

Catatan: Jika kata atau frasa dalam bahasa Indonesia memiliki tanda hubung, maka harus
ditambahkan dalam transkripsi.

Spesifikasi penggunaan tanda hubung adalah sebagai berikut:


(1) Sebuah tanda hubung "-" harus ditambahkan antara dua bagian dari kata ulang, seperti
contoh di bawah ini
Jenis pengulangan contoh
Kata ulang sederhana besar-besar kamar-kamar lihat-lihat
orang-orang marah-marah pagi-pagi
Kata ulang berjalan-jalan berpeluk-pelukan buah-buahan
berimbuhan
berbisik-bisik kebiru-biruan kebarat-baratan
Kata ulang berubah basa-basi cerai-berai hiruk-piruk
bunyi
bolak-balik hingar-bingar kacau-bilau
gerak-gerik lauk-pauk keluk-kesah

(2) Jika imbuhan asing diikuti oleh sebuah kata dengan huruf capital atau singkatan, tanda
hubung "-" harus ditambahkan di antara dua kata, seperti:
non-Indonesia,pan-Afrikanisme,anti-AIDS

(3) Nomor dan simbol spesial

1. Nomor harus ditranskrip ke dalam karakter bahasa Indonesia berdasarkan (nomor ponsel.
Nomor KTP, tahun, bulan, dll), contoh, 911 harus ditranskrip sebagai sembilan satu satu
2. Simbol special harus ditranskrip sesuai dengan pelafalannya dalam bahasa Indonesia. Contoh:
10% harus ditranskrip sesuai dengan pelafalan dalam audio yang terdengar.

(4) Tentang pengulangan pelafalan


1) Mengulang kata utuh beberapa kali dan transkripsikan sesuai dengan pelafalan yang terdengar.
2) Jika pelafalan yang diucapkan bukan merupakan kata yang utuh, dan hanya sebagian suku kata,
maka tak perlu ditranskrip.

(5) Partikel modal


1) Partikel modal yang terdengar utuh harus ditranskrip, kata seru dan onomatopoeia (kata yang
menirukan bunyi asli, contoh: buzz, hiss, boing) harus ditranskripsikan;
2) Jangan mentranskripsikan dalam situasi yang sangat singkat;
3) Tawa tidak ditranskripsikan.

(6) Catatan di situs web


Menurut tanda lafalnya, audio bahasa Indonesia ditandai dengan bahasa Indonesia dan bahasa
Inggris ditandai dengan bahasa Inggris.
(7) Tentang kata-kata yang diucapkan atau disingkat
Jika audio diucapkan atau disingkat, itu harus ditandai sesuai dengan konten audio yang
sebenarnya, yaitu diucapkan atau disingkat. Jika ni belum tentu diubah menjadi ini, nak belum
tentu ditandai sebagai hendak

(8) Data buruk


Jika seluruh audio hanya musik, kebisingan statis, kebisingan murni, tawa, terutama suara kecil
yang tidak terdengar, sulih suara bahasa asing, non bahasa Indonesia, dll., maka seluruh data tidak
valid, dan langsung klik tombol "Mark as bad data";

(9) Pada Tumpang Tindih Suara


1. Pertama-tama, orang yang berbeda harus berbicara dalam baris yang berbeda, dan dua suara
tidak dapat ditranskripsikan dalam satu baris. Jika satu sebelum yang lain, bagi menjadi dua baris
sesuai urutan pengucapan, lalu transkripsikan.

2. Jika suara tumpang tindih, maka:


*Jika ada tumpang tindih antara pembicara utama dan pembicara kedua (yang berbicara lebih
sedikit dan memiliki sedikit pengaruh) dan pelafalannya tidak dapat disegmentasi, pembicara
kedua akan diabaikan dan pembicara utama akan ditranskripsi;

*Jika pengucapan pembicara utama dan pembicara kedua (yang berbicara banyak dan
berpengaruh) tumpang tindih dan tidak dapat dibedakan per bagian, seluruh kalimat ditandai
sebagai<overlap>;
Data buruk:
Jika lebih dari 80% dari seluruh audio tidak dapat ditandai secara normal, seperti mute, noise, non
bahasa Indonesia, dan suara tidak dapat dimengerti, seluruh data akan dibatalkan, dan langsung
klik tombol "Mark as bad data";

Poin rawan kesalahan (ilustrasi berikut dalam bahasa Arab, hanya untuk penjelasan)

1. Apakah seseorang perlu menandai satu kata saja seperti baiklah , ya , dll. saat menjawab
panggilan?
Jawab: Ya, selama lengkap dan dapat didengar dengan jelas tanpa tumpang tindih, pengucapan
penutur yang berbeda harus diberi tanda pada baris tersendiri.

3. Ketika dua orang atau lebih berbicara tanpa pemisahan dan tumpang tindih yang jelas,
dapatkah mereka ditandai dalam satu segmen?
Jawaban: Tidak. Dalam urutan kronologis, dari kiri ke kanan, tanpa tumpang tindih, teks yang
diucapkan harus diberi tanda, dan peran pembicara harus dipisahkan. Setiap peran harus ditandai
satu per satu. Jika tidak ada segmen, pengucapan audio depan dan belakang akan hilang setelah
segmentasi. Penting untuk menentukan apakah label overlay diperlukan.

3. Apa perbedaan antara tag tuli dan tag kebisingan?


A: Deaf kebanyakan digunakan ketika sulit untuk mendengar atau mengerti, dan harus ada suara
di tag tuli. Tag kebisingan sebagian besar Kebisingan murni, musik dan tidak ada suara. Dalam
kasus khusus, kebisingan meliputi tawa, tangisan, teriakan, dll.

4. Kebisingan terus menerus atau keheningan terus menerus atau paragraf terus menerus yang
tidak dapat dipahami, apakah Anda perlu memisahkannya?
Jawab: Tidak, bagi saja menjadi segmen vad lengkap dan beri label.

Anda mungkin juga menyukai