Anda di halaman 1dari 16

Diterjemahkan dari bahasa Inggris ke bahasa Indonesia - www.onlinedoctranslator.

com

Kinerja Data:
Tolok Ukur Pengembangan AI Berpusat pada Data

Tandai Mazumder1, Colby Banbury1, Xiaozhe Yao2, Bojan Karlaš2, William Gaviria Rojas3, Sudnya
Diamos3, Greg Diamos4, Lynn Dia5, Alicia Parrish9, Hannah Rose Kirk18, Jessica Quaye1,
Charvi Rastogi12, Douwe Kiela6, David Jurado7,21, David Kanter7, Rafael Masjida7,21, Juan Ciro
7,21, Lora Aroyo9, Bilge Acun8, Ling Jiao Chen10, Mehul Smriti Raje3, Max Bartolo17,20,
Sabri Eyuboglu10, Amirata Ghorbani10, Emmett Goodman10, Oana Inel19, Tariq Kane3,9,
Christine R.Kirkpatrick11, Tzu-Sheng Kuo12, Jonas Mueller13, Tristan Sariawan6,
arXiv:2207.10062v2 [cs.LG] 5 Juli 2023

Joaquin Vanschoren14, Margaret Warren15, Adinda Williams8, Serena Yeung10, Newsha Ardalani8,
Praveen Paritosh9, Ce Zhang2,James Zou10, Carole-Jean Wu8, Cody Coleman3, Andrew Ng4,5,10,
Peter Mattson9, dan Vijay Janapa Reddi1

1Universitas Harvard,2ETH Zurich,3Koaktif.AI,4mendaratkan AI,5Pembelajaran Mendalam.AI,6Memeluk Wajah,


7MLCommons,8Meta,9Google,10Universitas Stanford,11Pusat Superkomputer San Diego, UC San
Diego,12Universitas Carnegie Mellon,13laboratorium bersih,14Universitas Teknologi Eindhoven,
15Institut Kognisi Manusia dan Mesin,16Kaggle,17Berpadu,18Universitas Oxford,
19Universitas Zürich,20Universitas Perguruan Tinggi London,21Difaktorkan

Abstrak
Penelitian pembelajaran mesin telah lama berfokus pada model dibandingkan kumpulan data, dan
kumpulan data yang menonjol digunakan untuk tugas-tugas ML umum tanpa memperhatikan
luas, kesulitan, dan kebenaran masalah yang mendasarinya. Mengabaikan pentingnya data telah
menimbulkan ketidakakuratan, bias, dan kerapuhan dalam penerapan di dunia nyata, dan
penelitian terhambat oleh kejenuhan di seluruh tolok ukur kumpulan data yang ada. Sebagai
tanggapan, kami menghadirkan DataPerf, rangkaian benchmark yang dipimpin komunitas untuk
mengevaluasi kumpulan data ML dan algoritme yang berpusat pada data. Kami bertujuan untuk
mendorong inovasi dalam AI yang berpusat pada data melalui kompetisi, komparabilitas, dan
reproduktifitas. Kami memungkinkan komunitas ML untuk melakukan iterasi pada kumpulan data,
bukan hanya pada arsitektur, dan kami menyediakan platform online terbuka dengan berbagai
tantangan untuk mendukung pengembangan berulang ini. Iterasi pertama DataPerf berisi lima
tolok ukur yang mencakup spektrum luas teknik, tugas, dan modalitas yang berpusat pada data
dalam visi, ucapan, akuisisi, debugging, dan dorongan difusi, dan kami mendukung hosting tolok
ukur kontribusi baru dari komunitas. Tolok ukur, platform evaluasi online, dan implementasi dasar
bersifat open source, dan Asosiasi MLCommons akan mengelola DataPerf untuk memastikan
manfaat jangka panjang bagi akademisi dan industri.

1. Perkenalan
Penelitian pembelajaran mesin sebagian besar berfokus pada peningkatan model dibandingkan peningkatan kumpulan data.
Kumpulan data publik yang besar seperti ImageNet [10], Freebase [6], Switchboard [16], dan SQuAD [30] berfungsi sebagai
kompas untuk membandingkan kinerja model. Akibatnya, para peneliti dengan bersemangat mengadopsi kumpulan data
terbesar yang ada tanpa sepenuhnya mempertimbangkan keluasan, kesulitan, dan ketepatannya terhadap masalah mendasar.
Yang terpenting, kualitas data yang lebih baik [2] semakin diperlukan untuk meningkatkan generalisasi, menghindari bias, dan
membantu keamanan dalam rangkaian data. Tanpa data pelatihan berkualitas tinggi, model dapat menunjukkan perbedaan
kinerja yang menyebabkan berkurangnya akurasi dan masalah keadilan yang terus-menerus [7, 11, 26] setelah model tersebut
meninggalkan lab untuk memasuki layanan. Dalam ML konvensional yang berpusat pada model, istilahnya

Pracetak. Sedang ditinjau.


tolok ukursering kali berarti kumpulan data standar dan tetap untuk perbandingan akurasi model dan pengukuran
kinerja. Meskipun paradigma ini berguna untuk memajukan desain model, tolok ukur ini kini sudah jenuh (mencapai
kinerja sempurna atau di atas “tingkat manusia”) [20]. Hal ini menimbulkan dua pertanyaan: Pertama, apakah penelitian
ML mengalami kemajuan nyata dalam hal kemampuan dasarnya, atau apakah penelitian tersebut terlalu sesuai dengan
kumpulan data tolok ukur atau mengalami artefak data? Semakin banyak literatur yang mengeksplorasi bukti yang
mendukung keterbatasan benchmark [38, 18, 29, 35, 32, 4, 15, 37]. Kedua, bagaimana tolok ukur harus berkembang
untuk mendorong kemajuan penelitian ML?

Menanggapi tren yang mengkhawatirkan ini, kami memperkenalkan DataPerf, rangkaian benchmark
berpusat pada data yang memperkenalkan persaingan pada bidang peningkatan kumpulan data. Kami
mensurvei serangkaian alur pengembangan datasentris yang kompleks di beberapa domain ML dan
mengisolasi subkumpulan tugas nyata yang kami yakini mewakili hambatan yang ada saat ini, seperti
yang diilustrasikan pada Gambar 1. Tolok ukur umumnya berpusat pada model, dan oleh karena itu fokus
pada desain model dan tahapan pelatihan dari pipeline ML (ditampilkan dalam warna oranye). Namun,
untuk mengembangkan aplikasi ML berkualitas tinggi, pengguna sering kali menggunakan kumpulan
operasi yang berpusat pada data untuk meningkatkan kualitas data dan mengulangi iterasi yang
berpusat pada data untuk menyempurnakan operasi ini. DataPerf bertujuan untuk mengukur semua
tahapan utama dari alur data-sentris (ditampilkan dalam warna hijau) untuk meningkatkan kualitas data
ML. gambar.caption.2.

Sisa makalah ini disusun sebagai berikut. Di Bagian 2 Rangkaian Pembandingan DataPerf bagian.2 kami
meninjau pembelajaran dari tantangan eksplorasi data-sentris dan kami menyajikan rangkaian lima tolok ukur
dan tantangan baru DataPerf yang terinspirasi oleh upaya prototipikal ini. Di Bagian 3Platform Evaluasibagian.3,
kami merinci platform dasar yang kami kembangkan untuk menampung tantangan DataPerf saat ini dan masa
depan. Kami menyimpulkan dengan survei mengenai upaya terkait, implikasi etika, dan arah masa depan.

Kontribusi kami adalah sebagai berikut:

• Kami telah mengembangkan serangkaian tolok ukur baru yang berpusat pada data yang mencakup
berbagai macam tugas. Tugas-tugas ini mencakup pemilihan set pelatihan untuk ucapan dan
penglihatan, pembersihan dan debugging data, akuisisi data, dan dorongan model difusi.
• Setiap tolok ukur menentukan tugas yang berpusat pada data berdasarkan alasan kasus penggunaan di dunia
nyata. Kami memberikan aturan penyerahan, bersama dengan skrip evaluasi, dan penyerahan dasar untuk
setiap tugas tolok ukur.
• Kami menyediakan platform sumber terbuka dan dapat diperluas untuk menampung tolok ukur data-sentris, yang
memungkinkan organisasi dan peneliti lain mengusulkan tolok ukur baru untuk disertakan dalam rangkaian DataPerf,
dan untuk menyelenggarakan sendiri tantangan data.

Yang terpenting, DataPerf bukanlah kompetisi yang hanya dilakukan sekali saja. Kami telah membentuk Kelompok Kerja
DataPerf, yang beroperasi di bawah Asosiasi MLCommons. Kelompok kerja ini bertanggung jawab atas pemeliharaan
tolok ukur dan platform yang berkelanjutan, serta mendorong pengembangan penelitian dan metodologi yang berpusat
pada data baik di bidang akademis maupun industri. Tujuannya adalah untuk memastikan keberlanjutan dan
pertumbuhan DataPerf dalam jangka panjang di luar satu kompetisi.

2 Rangkaian Pembandingan DataPerf

Kami menjelaskan tantangan awal yang menginspirasi rangkaian tolok ukur DataPerf dan mengidentifikasi fitur mana
yang diperlukan untuk menyelenggarakan tantangan yang berpusat pada data secara online. Kami kemudian
membagikan definisi tolok ukur Data-Perf awal dalam visi, ucapan, akuisisi, proses debug, dan perintah teks ke gambar.

2.1 Tantangan AI yang Berpusat pada Data

Upaya DataPerf dimulai dengan tolok ukur awal yang berfungsi untuk memvalidasi kelayakan dan memberikan
wawasan nyata tentang konsep tolok ukur kumpulan data. Dalam tantangan ML tradisional, kontestan harus melatih
model dengan akurasi tinggi dengan kumpulan data tetap. Pendekatan yang berpusat pada model ini ada di mana-
mana dan telah mempercepat penelitian ML, namun mengabaikan persyaratan sistem dan infrastruktur di sekitar ML
dalam produksi [33]. Untuk menarik lebih banyak perhatian ke area lain dari pipeline ML, kami menciptakan kompetisi
Data-Centric AI (DCAI) [27], mengundang pesaing untuk fokus pada optimalisasi akurasi dengan meningkatkan
kumpulan data dengan arsitektur model tetap, sehingga membalikkan konteks

2
Operasi Berpusat Data Pelatihan

Kualitas data
Penguraian Data
Penilaian Model ML
Data pelatihan

Set Kereta Baru


Data Data
Augmentasi Akuisisi

Pengujian Data
Data
Perwakilan Men-debug
Pembersihan Data
Pilihan
Set Tes Baru

D
Sumber Data Lainnya Iterasi Berpusat Data

Gambar 1:Tolok ukur umumnya berpusat pada model, dan oleh karena itu fokus pada desain model dan tahapan pelatihan
pipeline ML (ditampilkan dalam warna oranye). Namun, untuk mengembangkan aplikasi ML berkualitas tinggi, pengguna sering
kali menggunakan kumpulan operasi berpusat pada data untuk meningkatkan kualitas data dan mengulangi perulangan
berpusat pada data untuk menyempurnakan operasi ini. DataPerf bertujuan untuk mengukur semua tahapan utama dari alur
data-sentris (ditampilkan dalam warna hijau) untuk meningkatkan kualitas data ML.

format tantangan konvensional dalam mengirimkan model berbeda yang dievaluasi pada kumpulan data tetap. Elemen
pembatasnya adalah ukuran kumpulan data yang dikirimkan; oleh karena itu, pengirim menerima set data pelatihan
awal untuk ditingkatkan melalui strategi berpusat pada data seperti menghapus label yang tidak akurat, menambahkan
instance yang menggambarkan kasus edge, dan menggunakan augmentasi data. Kompetisi yang terinspirasi oleh
MNIST ini berfokus pada klasifikasi angka Romawi. Hanya dengan melakukan iterasi pada kumpulan data, peserta
meningkatkan akurasi dasar dari 64,4% menjadi 85,8%; kinerja tingkat manusia (HLP) adalah 90,2%. Kami memetik
beberapa pelajaran dari 2.500 kiriman dan menerapkannya pada DataPerf:

1.Saluran data umum. Entri yang berhasil mengikuti prosedur serupa: memilih foto awal, memperbesarnya,
melatih model baru, menilai kesalahan model, dan membagi kelompok gambar dengan kesalahan yang
sebanding dari foto awal. Kami yakin semakin banyak kompetisi yang akan membangun dan
menyempurnakan praktik-praktik yang dapat digeneralisasikan dan efektif.

2.Metode otomatis menang. Kami berharap peserta akan menemukan dan mengatasi masalah pelabelan,
namun strategi pemilihan data dan augmentasi data memiliki kinerja terbaik.

3.Pengoptimalan kumpulan data baru. Contoh taktik yang berhasil mencakup metode otomatis untuk mengenali gambar
dan label yang berisik, mengidentifikasi gambar yang salah diberi label, menentukan aturan pelabelan eksplisit untuk
gambar yang membingungkan, memperbaiki ketidakseimbangan kelas, dan memilih serta menyempurnakan gambar
dari kelas yang panjang. Kami yakin rangkaian tantangan dan tugas ML yang tepat akan menghasilkan
pengoptimalan baru yang berpusat pada data.

4.Metode-metode baru pun bermunculan. Selain kriteria evaluasi konvensional (kinerja tertinggi
pada metrik umum), kami membuat kategori terpisah yang mengevaluasi inovasi suatu teknik.
Pendekatan ini mendorong peserta untuk mengeksplorasi dan memperkenalkan teknik
sistematis baru dengan potensi dampak di luar papan peringkat.
5.Infrastruktur pendukung baru diperlukan. Format kompetisi yang tidak konvensional memerlukan
teknologi yang secara bersamaan mendukung jalur kompetisi khusus serta penyimpanan dan waktu
pelatihan yang cukup. Kami segera menyadari bahwa platform dan kompetisi memerlukan fungsi
yang saling melengkapi untuk mendukung kebutuhan unik pengembangan AI yang berpusat pada
data. Selain itu, kompetisi ini secara komputasi mahal. Oleh karena itu, kami memerlukan cara yang
lebih efisien untuk melatih model berdasarkan data yang dikirimkan pengguna. Daya komputasi,
memori, dan bandwidth merupakan batasan utama.

Kelima pelajaran ini memengaruhi tolok ukur dan desain platform online DataPerf. Sisa dari Bagian 2 Rangkaian
Pembandingan DataPerf bagian.2 merinci lima tolok ukur baru yang kami perkenalkan ke dalam rangkaian DataPerf dan
Bagian 3 Platform Evaluasi bagian.3 merinci platform yang telah kami kembangkan untuk menampung tantangan yang
berpusat pada data. Kami bermaksud untuk mempublikasikan wawasan dari tantangan yang dihosting DataPerf dan
menggabungkannya ke dalam iterasi suite mendatang.

3
Kereta Evaluasi Evaluasi

vektor vektor ID

Diizinkan
Terpilih
Kereta
ID
Pilihan Pelatihan Evaluasi
Skor
ID (Pelatihan Pemodelan)

MLCommons Pengirim Dihasilkan

Gambar 2:Desain sistem dan kepemilikan komponen untuk tolok ukur pemilihan ucapan.

2.2 Kompetisi, Tantangan dan Papan Peringkat

DataPerf menggunakan papan peringkat dan tantangan untuk mendorong persaingan konstruktif, mengidentifikasi ide-
ide terbaik, dan menginspirasi konsep generasi berikutnya untuk membangun dan mengoptimalkan kumpulan data.
Papan peringkat adalah ringkasan publik dari hasil benchmark; ini membantu untuk dengan cepat mengidentifikasi
pendekatan-pendekatan canggih. Tantangannya adalah kontes publik untuk mencapai hasil terbaik di papan peringkat
dalam waktu yang ditentukan. Tantangan memotivasi kemajuan pesat melalui pengakuan, penghargaan dan/atau
hadiah. Kami tertarik pada tolok ukur yang terkait dengan kumpulan data dan kualitas sampel. Kami menyelenggarakan
papan peringkat dan tantangan pada platform online yang dikembangkan dan didukung oleh MLCommons (Bagian
3Platform Evaluasibagian.3). Bagian berikut menjelaskan tolok ukur yang menyusun iterasi pertama rangkaian tolok
ukur DataPerf. Dokumentasi untuk setiap definisi tolok ukur, metrik, aturan penyerahan,

2.2.1 Seleksi Pidato

DataPerf mencakup tantangan algoritma pemilihan kumpulan data dengan penekanan pada ucapan dengan sumber
daya rendah. Tujuan dari tugas pemilihan ucapan adalah untuk mengembangkan algoritme pemilihan yang memilih
sampel pelatihan paling efektif dari kumpulan kata-kata lisan multibahasa yang luas (dan berisik), untuk memperluas
teknik estimasi kualitas sampel ke pengaturan bahasa dengan sumber daya rendah. Set pelatihan yang disediakan
digunakan untuk melatih dan mengevaluasi kumpulan model deteksi kata kunci tetap.

Alasan Kasus Penggunaan:Penentuan kata kunci (KWS) adalah tugas klasifikasi ucapan yang ada di mana-mana di
miliaran perangkat. Model KWS mendeteksi kosakata lisan yang terbatas. Contoh produksi termasuk antarmuka kata
bangun untuk Google Voice Assistant, Siri dan Alexa. Namun, kumpulan data KWS publik biasanya hanya mencakup
sedikit kata dalam bahasa yang digunakan secara luas. Sebaliknya, Multilingual Spoken Words Corpus [25] (MSWC),
merupakan kumpulan data besar yang berisi lebih dari 340.000 kata lisan dalam 50 bahasa (secara kolektif, bahasa-
bahasa ini mewakili lebih dari lima miliar orang). MSWC mengotomatiskan ekstraksi klip audio sepanjang kata dari data
crowdsourced. Karena kesalahan dalam proses pembuatan dan sumber data, beberapa sampel salah. Misalnya, kata-
kata tersebut mungkin kehilangan sebagian dari sampel target (misalnya, “weathe-” dan bukan “weather”) atau mungkin
berisi bagian dari kata yang berdekatan (misalnya, “waktunya” dan bukannya “waktu”). Tolok ukur ini berfokus pada
memperkirakan kualitas setiap sampel yang dihasilkan secara otomatis dalam alur pelatihan KWS yang ditujukan untuk
bahasa dengan sumber daya rendah, sebagai langkah penting dalam memperluas ketersediaan KWS ke kata-kata
arbitrer dalam bahasa apa pun.

Desain Tolok Ukur:Peserta merancang algoritme pemilihan set pelatihan untuk mengusulkan sampel data
sesedikit mungkin untuk melatih tiga model pencarian kata kunci untuk lima kata target masing-masing dalam
tiga bahasa: Inggris, Portugis, dan Indonesia, yang mewakili bahasa dengan sumber daya tinggi, sedang, dan
rendah. Tolok ukur mengevaluasi algoritma berdasarkan meanF1skor setiap set evaluasi. Model ini merupakan
gabungan dari SVC dan pengklasifikasi regresi logistik, yang menghasilkan satu dari enam kategori (lima kelas
target dan satu kelas “tidak diketahui”). Masukan ke pengklasifikasi adalah vektor 1.024 dimensi dari
representasi penyematan dari ekstraktor fitur kata kunci yang telah dilatih sebelumnya [24]. Peserta hanya
dapat menentukan sampel pelatihan yang digunakan oleh model; semua parameter konfigurasi lainnya telah
diperbaiki, sehingga menekankan pentingnya memilih sampel yang paling informatif. Untuk setiap bahasa,
terdapat papan peringkat terpisah untuk pengiriman≤25 sampel atau≤60 sampel, mengevaluasi sensitivitas
algoritme terhadap ukuran set pelatihan.

Peserta diberikan algoritme pemilihan dasar yang menggunakan validasi crossfold di notebook Google
Colab dan salinan offline pipeline evaluasi, untuk kemudahan penyiapan dan eksperimen cepat. Desain
sistem ini mengatasi masalah yang diidentifikasi dalam tantangan AI yang berpusat pada data (Bagian
2.1Tantangan AI Berpusat Datasubbagian.2.1) - memungkinkan pengembangan offline mengurangi

4
persyaratan komputasi untuk evaluasi online, meskipun peserta harus setuju untuk menantang peraturan
tentang tidak memeriksa set evaluasi. Server DataPerf mengevaluasi dan memverifikasi set pelatihan yang
dikirimkan secara otomatis (Bagian 3Platform Evaluasibagian.3 untuk disertakan dalam papan peringkat
langsung. Gambar 2Desain sistem dan kepemilikan komponen untuk benchmark pemilihan
ucapan.figure.caption.3 mengilustrasikan alur kerja benchmark pemilihan ucapan.

Hasil Dasar:Implementasi dasar kami1mencapai makroF1skor0,31≤25Dan0,41≤60


untuk bahasa Inggris,0,44≤25Dan0,52≤60untuk bahasa Portugis, dan0,36≤25Dan0,43≤60untuk orang Indonesia, rata-
rata terdapat 10 benih acak.

2.2.2 Seleksi Visi

DataPerf mencakup tantangan algoritme pemilihan data dengan fokus yang berpusat pada visi. Tujuan dari
tugas ini adalah untuk mengembangkan algoritma pemilihan data yang memilih sampel pelatihan paling efektif
dari kumpulan kandidat gambar yang besar. Set pelatihan yang dihasilkan ini kemudian akan digunakan untuk
melatih kumpulan pengklasifikasi biner untuk berbagai konsep visual. Tolok ukur mengevaluasi algoritme
berdasarkan presisi rata-rata rata-rata model yang dihasilkan pada kumpulan evaluasi.

Alasan Kasus Penggunaan:Kumpulan data yang besar sangat penting bagi banyak pencapaian ML, namun hal ini menimbulkan
tantangan yang signifikan. Kumpulan data yang sangat besar rumit dan mahal, khususnya data yang tidak terstruktur seperti
gambar, video, dan ucapan yang di-scrap atau diberi label yang lemah. Pemilihan data yang cermat dapat mengurangi beberapa
kesulitan dengan memfokuskan sumber daya komputasi dan pelabelan pada contoh yang paling berharga dan menekankan
kualitas daripada kuantitas, sehingga mengurangi biaya dan waktu pelatihan.

Tolok ukur algoritma pemilihan visi mengevaluasi klasifikasi biner konsep visual (misalnya, “truk monster”
atau “jaket jean”) dalam gambar tanpa label. Contoh produksi model serupa yang umum mencakup
layanan pelabelan otomatis oleh Amazon Rekognition, Google Cloud Vision API, dan Azure Cognitive
Services. Pendekatan yang berhasil terhadap tantangan ini akan memungkinkan klasifikasi gambar
konsep jangka panjang di mana penemuan data bernilai tinggi sangat penting, dan merupakan langkah
besar menuju demokratisasi visi komputer [14].

Desain Tolok Ukur:Tugasnya adalah merancang strategi pemilihan data yang memilih contoh pelatihan
terbaik dari kumpulan besar gambar pelatihan. Bayangkan, misalnya, membuat subset dari set pelatihan
Open Images Dataset V6 [23] yang memaksimalkan presisi rata-rata rata-rata (mAP) untuk serangkaian
konsep (“cupcake”, “hawk”, dan “sushi”). Kami memberikan serangkaian contoh positif untuk setiap tugas
klasifikasi yang dapat digunakan peserta untuk mencari gambar yang berisi konsep target. Peserta harus
menyerahkan satu set pelatihan untuk setiap tugas klasifikasi selain deskripsi metode pemilihan data
yang mereka gunakan untuk menghasilkan set pelatihan. Set pelatihan akan menjalani evaluasi otomatis
pada platform hosting kami (Bagian 3Platform Evaluasibagian.3).

Hasil Dasar: Kami memberikan hasil dasar untuk tiga metode pemilihan data, yaitu k-
artinya, hutan acak, dan pembuatan label semu melalui jaringan saraf2.F1skor pada tiga
konsep tes disajikan pada Tabel 1 Hasil dasar (F1skor) untuk tantangan Seleksi
Visi.tabel.caption.4.

Tabel 1: Hasil dasar (F1skor) untuk tantangan Seleksi untuk Visi.

kue mangkuk Elang Sushi

K-berarti 61.60 74.10 67.30

Hutan acak 66.20 81,80 64.40

Pembuatan label palsu 66,70 82.00 77,70

1https://github.com/harvard-edge/dataperf-speech-example
2https://github.com/CoactiveAI/dataperf-vision-selection,implementasi dasar akan segera
menjadi sumber terbuka; kami sedang dalam proses merilis kode.

5
2.2.3 Men-debug untuk Vision

Tantangan debugging adalah mendeteksi kesalahan data kandidat dalam set pelatihan yang menyebabkan kualitas model lebih
rendah. Tujuannya adalah untuk membantu pengguna dalam memprioritaskan sampel mana yang harus diperiksa, diperbaiki,
dan dibersihkan. Tujuan metode debugging adalah untuk mengidentifikasi titik data yang paling merugikan dari kumpulan
pelatihan yang berpotensi menimbulkan gangguan. Setelah memeriksa dan mengoreksi titik data yang dipilih, kumpulan data
yang telah dibersihkan digunakan untuk melatih model klasifikasi baru. Evaluasi didasarkan pada jumlah titik data yang harus
dikoreksi oleh pendekatan debugging untuk mencapai akurasi tertentu.

Alasan Kasus Penggunaan:Ukuran kumpulan data ML telah melonjak dalam beberapa tahun terakhir. Open Images
Dataset V6, misalnya, memiliki 59 juta label tingkat gambar. Kumpulan data tersebut dianotasi secara manual atau
menggunakan ML. Sayangnya, noise tidak dapat dihindari dan dapat berasal dari anotator manusia maupun algoritme.
Model yang dilatih dengan anotasi yang berisik memiliki tingkat akurasi yang buruk dan membawa risiko bias dan
ketidakadilan. Pembersihan kumpulan data adalah pendekatan umum untuk menangani label yang berisik. Namun, ini
adalah proses yang mahal dan memakan waktu dan biasanya melibatkan peninjauan manusia. Akibatnya, pemeriksaan
dan sanitasi seluruh kumpulan data seringkali tidak praktis. Metode data-sentris yang memfokuskan perhatian manusia
dan upaya pembersihan pada elemen data yang paling penting dapat secara signifikan mengurangi waktu, biaya, dan
tenaga dalam proses debug kumpulan data.

Desain Tolok Ukur:Tugas debugging didasarkan pada klasifikasi gambar biner. Untuk setiap aktivitas, peserta
menerima set pelatihan yang berisik (yaitu, beberapa label tidak akurat) dan set validasi dengan label yang
benar. Mereka harus menyediakan pendekatan debugging yang memberikan nilai prioritas (bahaya) untuk
setiap item set pelatihan. Setelah setiap uji coba, semua data pelatihan akan diperiksa dan diperbaiki. Setiap kali
item baru diperiksa, model klasifikasi dilatih pada kumpulan data bersih, dan akurasi pengujian pada kumpulan
pengujian tersembunyi dihitung. Kemudian skor dikembalikan.

Kumpulan gambar berasal dari Open Images Dataset [23], dengan dua pertimbangan penting: (1) Jumlah titik
data harus cukup untuk memungkinkan pemilihan sampel secara acak untuk set pelatihan, validasi, dan
pengujian. (2) Jumlah perbedaan antara label yang dihasilkan mesin dan label yang diverifikasi manusia
berbeda-beda tergantung tugas; tantangannya mencerminkan kompleksitas klasifikasi yang bervariasi. Kami
memperkenalkan dua jenis derau ke dalam label yang diverifikasi manusia pada set pelatihan: beberapa label
dibalik secara acak, dan label yang dihasilkan mesin menggantikan beberapa label yang terverifikasi manusia
untuk meniru derau dari pelabelan algoritmik.

Kami menggunakan representasi penyematan vektor 2.048 dimensi yang dibuat oleh ekstraktor fitur gambar terlatih
sebagai data masukan pengklasifikasi. Peserta cukup memprioritaskan setiap sampel pelatihan yang digunakan oleh
pengklasifikasi; semua konfigurasi lainnya diperbaiki untuk semua pengiriman.

Kami menggunakan set pengujian tersembunyi untuk mengevaluasi performa model klasifikasi terlatih pada setiap
tugas. Karena tujuan dari tantangan debugging adalah untuk menentukan metode mana yang menghasilkan akurasi
yang cukup sambil menganalisis titik data paling sedikit, metrik penilaian dalam tantangan debugging adalah proporsi
inspeksi yang diperlukan untuk mencapai 95% akurasi yang dilatih oleh pengklasifikasi pada pelatihan yang dibersihkan
set tercapai.

Peserta dalam tantangan ini mengembangkan dan memvalidasi algoritme mereka di mesin mereka sendiri
menggunakan kumpulan data dan kerangka evaluasi yang disediakan oleh DataPerf. Setelah mereka puas dengan
penerapannya, mereka mengirimkan versi kemas ke server (Bagian 3Platform Evaluasibagian.3). Server kemudian
menjalankan kembali implementasi yang diunggah pada beberapa tugas tersembunyi dan memposting skor rata-rata
ke papan peringkat.

Hasil Dasar:Sistem benchmark menyediakan tiga implementasi dasar3: berturut-turut, acak dan
DataScope [19], yang mencapai skor53,50, 51,75Dan15.54masing-masing. Dengan kata lain, DataScope
[19] perlu diperbaiki15,54%sampel data untuk mencapai ambang batas, kebutuhan berturut-turut53,50%
dan acak perlu diperbaiki51,75%.

2.2.4 Akuisisi Data


Tantangan akuisisi data mengeksplorasi kumpulan data atau kombinasi kumpulan data mana yang akan dibeli
di pasar data multi-sumber untuk tugas ML tertentu.

Alasan Kasus Penggunaan:Data yang kaya semakin banyak dijual dan dibeli baik secara langsung melalui perusahaan
(misalnya, Twitter [36] dan Bloomberg [5]) atau pasar data (misalnya, Amazon AWS Data Exchange [1],

3https://github.com/DS3Lab/dataperf-vision-debugging

6
Pengamatan Kiriman Eksekusi
Harga Deskripsi dari Verifikator Anggaran
Mekanisme Strategi/Algo

Kumpulan Data Penjual


Himpunan data Dibeli
Ringkasan Pecahan
Model ML
Evaluasi
Skrip (Opsional) Set Data Evaluasi
Himpunan data

Gambar 3:Desain tolok ukur akuisisi data. Para peserta mengamati mekanisme penetapan harga,
ringkasan kumpulan data, dan kumpulan data evaluasi. Mereka kemudian perlu mengembangkan dan
menyerahkan strategi akuisisi data. Evaluasi dijalankan secara otomatis di server DataPerf.

Databricks Marketplace [9], dan TAUS Data Marketplace [34]) untuk melatih model ML berkualitas tinggi yang
disesuaikan untuk aplikasi tertentu. Kumpulan data tersebut seringkali diperlukan karena kumpulan data tersebut (i)
mencakup populasi yang kurang terwakili, (ii) menawarkan anotasi berkualitas tinggi, dan (iii) menunjukkan format yang
mudah digunakan. Di sisi lain, kumpulan data juga mahal karena upaya luar biasa yang dilakukan untuk mengkurasi dan
membersihkan sampel data.Opasitas kontenoleh karena itu ada di mana-mana: penjual data biasanya enggan merilis
seluruh konten kumpulan data mereka kepada pembeli. Hal ini menyulitkan pengguna data untuk memutuskan apakah
kumpulan data berguna untuk tugas ML hilir. Berdasarkan percakapan kami dengan praktisi, metode akuisisi data untuk
ML yang ada adalahAD hoc: seseorang harus mengidentifikasi penjual data secara manual, mengartikulasikan
kebutuhan mereka, memperkirakan kegunaan data, dan kemudian membelinya. Hal ini juga bersifat berulang:
kumpulan data mungkin menunjukkan peningkatan terbatas pada tugas ML hilir setelah dibeli, dan kemudian kita harus
mencari kumpulan data baru lagi. Mengingat hal ini, tujuan dari tantangan ini adalah untuk mengurangi beban pembeli
data dengan mengotomatiskan dan mengoptimalkan strategi akuisisi data.

Desain Tolok Ukur:Peserta tantangan ini harus menyerahkan strategi akuisisi data. Strategi akuisisi data
menentukan jumlah sampel yang akan dibeli dari setiap penjual data yang tersedia di pasar data.
Kemudian rangkaian benchmark menghasilkan set data pelatihan berdasarkan strategi akuisisi untuk
melatih pengklasifikasi ML.

Untuk meniru akuisisi data di pasar data dunia nyata, peserta tidak memiliki akses ke data penjual. Sebaliknya,
peserta ditawari (1) beberapa sampel (=5) dari setiap penjual data, (2) ringkasan statistik tentang setiap
kumpulan data, (3) fungsi penetapan harga yang menghitung berapa banyak yang harus dibayar ketika
sejumlah sampel tertentu dibeli. dari satu penjual, dan (4) kendala anggaran. Tujuan peserta adalah
mengidentifikasi strategi akuisisi data dalam batasan anggaran yang memaksimalkan kinerja pengklasifikasi
terlatih pada kumpulan data evaluasi. Karena fokusnya adalah pada perolehan data pelatihan, kumpulan data
evaluasi juga tersedia untuk semua peserta. Peserta mengembangkan dan mengevaluasi strategi akuisisi data
pada mesin lokal mereka, dan mengirimkan strategi mereka beserta deskripsi teks ke server untuk evaluasi
otomatis. Desain sistem secara keseluruhan dapat dilihat pada Gambar 3. Desain benchmark akuisisi data. Para
peserta mengamati mekanisme penetapan harga, ringkasan kumpulan data, dan kumpulan data evaluasi.
Mereka kemudian perlu mengembangkan dan menyerahkan strategi akuisisi data. Evaluasi dijalankan secara
otomatis di server DataPerf.figure.caption.5.

Hasil Dasar:Kami menawarkan tiga metode dasar4yaitu SERAGAM, RSS (penjual tunggal acak), dan FSS (penjual
tunggal tetap). SERAGAM membeli titik data secara seragam dan acak dari setiap penjual. RSS menghabiskan
seluruh anggaran untuk membeli sebanyak mungkin titik data dari satu penjual yang dipilih secara acak,
sementara FSS melakukan hal yang sama dari penjual tetap. Kinerja dasar dapat dilihat pada Tabel 2. Kami
mengukur kinerja tiga dasar pada kelima contoh pasar data. Terdapat heterogenitas kinerja yang besar,
sehingga memerlukan pendekatan akuisisi data yang dirancang dengan cermat. tabel.caption.6. Secara
keseluruhan, terdapat heterogenitas kinerja yang besar di antara data dasar yang dipertimbangkan. Hal ini
menggarisbawahi perlunya strategi akuisisi data yang dirancang dengan cermat.

2.2.5 Penggigit Musuh


Tujuan dari tantangan Adversarial Nibbler adalah untuk melibatkan komunitas riset yang luas dalam bersama-sama menemukan beragam
rangkaian masalah jangka panjang yang berwawasan luas untuk model teks-ke-gambar dan dengan demikian membantu

4https://github.com/facebookresearch/Data_Acquisition_for_ML_Benchmark

7
mengidentifikasi titik buta saat ini dalam produksi gambar yang berbahaya (yaitu, hal yang tidak diketahui dan tidak
diketahui). Kami fokus pada pasangan gambar cepat yang saat ini lolos dari celah filter keamanan – baik melalui
perintah yang disengaja dan subversif yang menghindari filter berbasis teks atau melalui permintaan yang tampaknya
tidak berbahaya namun tetap memicu keluaran yang tidak aman. Dengan berfokus pada generasi yang tidak aman dan
petunjuk yang tampaknya aman, tantangan kami tertuju pada kasus-kasus yang (1) paling sulit ditangkap melalui
pemfilteran pesan teks dan (2) berpotensi membahayakan pengguna akhir yang tidak bermusuhan.

Alasan Kasus Penggunaan:Berdasarkan keberhasilan baru-baru ini dalam hal keadilan data [17],
kualitas [8], keterbatasan [22, 39] dan dokumentasi serta replikasi [28] tantangan permusuhan dan
berpusat pada data untuk model klasifikasi, kami mengidentifikasi tantangan baru untuk
menemukan mode kegagalan dalam model teks-ke-gambar generatif. Model seperti DALL-E 2,
Stable Diffusion, dan Midjourney telah menjangkau banyak audiens dalam satu tahun terakhir
karena kemampuannya yang mengesankan dan fleksibel. Meskipun sebagian besar model
memiliki filter berbasis teks untuk menangkap permintaan pembangkitan yang jelas-jelas
berbahaya, filter ini tidak memadai untuk melindungi terhadap seluruh kemungkinan bahaya.
Misalnya, [31] baru-baru ini mengungkapkan bahwa filter keamanan yang dikaburkan dari Stable
Diffusion hanya menangkap konten seksual eksplisit namun gagal mengatasi kekerasan, adegan
berdarah, dan konten bermasalah lainnya.
Definisi Tolok Ukur:Kompetisi ini ditujukan bagi para peneliti, pengembang, dan praktisi di bidang keadilan dan
pengembangan AI generatif text-to-image. Kami sengaja merancang kompetisi ini agar cukup sederhana
sehingga peneliti dari komunitas non-AI/ML dapat berpartisipasi, meskipun struktur insentifnya ditujukan untuk
para peneliti. Peserta harus menulis pesan yang tidak berbahaya atau subversif yang diharapkan sesuai dengan
gambar yang tidak aman. Server evaluasi kami mengembalikan beberapa gambar yang dihasilkan
menggunakan lisensi API yang dikelola DataPerf, dan peserta memilih gambar (atau tidak sama sekali) yang
termasuk dalam salah satu kategori mode kegagalan kami seputar stereotip, generasi yang tidak pantas secara
budaya, atau generasi yang tidak pantas secara etika.

Kami bertujuan untuk mengumpulkan petunjuk yang dianggap sebagai “pintu belakang” untuk pembuatan yang tidak aman.
Kami fokus pada dua jenis pasangan pembangkitan cepat yang berbeda, masing-masing mencerminkan mode interaksi model
pengguna yang berbeda. (1)Perintah yang tidak berbahaya dengan keluaran tidak aman yang tidak terduga.Perintah yang tidak
berbahaya dalam banyak kasus diharapkan menghasilkan gambar yang aman. Namun, dalam beberapa kasus, bahkan dorongan
yang tidak berbahaya dapat secara tidak terduga memicu generasi yang tidak aman atau berbahaya. (2)Perintah subversif
dengan keluaran tidak aman yang diharapkan. Meskipun filter teks menangkap permintaan yang jelas-jelas berbahaya, pengguna
dapat mengabaikan filter tersebut melalui perintah subversif yang memicu model untuk menghasilkan generasi yang tidak aman
atau berbahaya. Data yang dikumpulkan dari putaran pertama kemudian dikirim ke manusia untuk divalidasi sebelum hasilnya
dirilis ke papan peringkat. Peserta diberi penghargaan berdasarkan dua kriteria:keberhasilan serangan yang divalidasi, jumlah
gambar tidak aman yang dihasilkan, dankreativitas penyerahan, menilai cakupan dalam hal mode serangan di seluruh dimensi
leksikal, semantik, sintaksis, dan pragmatis.

Hasil Dasar:Karena tantangan Adversarial Nibbler berfokus pada data crowdsourcing dan menyimpang dari tolok ukur
lainnya, tidak ada kode awal atau hasil dasar. Sebaliknya, tujuannya adalah menganalisis data setelah tantangan
diumumkan dan membuat kumpulan data yang tersedia untuk umum yang terdiri dari pasangan gambar cepat.
Pasangan yang akan menjalani validasi ini akan digunakan untuk menetapkan peringkat data dan akan berfungsi
sebagai sumber berharga untuk menarik kesimpulan dan wawasan dari masukan yang diterima.

Tabel 2: Kami mengukur kinerja tiga baseline pada kelima contoh pasar data. Terdapat heterogenitas kinerja
yang besar, sehingga memerlukan pendekatan akuisisi data yang dirancang dengan cermat.

Contoh Pasar 0 1 2 3 4

SERAGAM 0,732 0,757 0,771 0,754 0,742

Kinerja Dasar RSS 0,705 0,732 0,73 0,721 0,679

FSS 0,727 0,719 0,735 0,699 0,678

8
3 Platform Evaluasi
DataPerf menyediakan platform online di mana peserta benchmark dapat menyerahkan solusi mereka untuk dievaluasi,
dan anggota di bidang akademis dan industri dapat mengusulkan tantangan baru yang berpusat pada data untuk
dimasukkan dalam rangkaian DataPerf. Tolok ukur DataPerf, alat evaluasi, papan peringkat, dan dokumentasi dihosting
di platform online yang disebut Dynabench5[20], yang memungkinkan peserta benchmark untuk menyerahkan,
mengevaluasi, dan membandingkan solusi untuk semua benchmark yang berpusat pada data yang ditentukan dalam
Bagian. 2DataPerf Benchmarking Suitebagian.2.

DataPerf memperkenalkan tiga ekstensi utama pada basis kode Dynabench untuk mendukung tolok ukur yang berpusat
pada data: (1) Kami menambahkan dukungan untuk beragam artefak pengiriman, seperti subset pelatihan, nilai
prioritas/pemesanan, dan strategi pembelian. Penulis tolok ukur di masa mendatang dapat menyumbangkan alur
pengiriman modular yang disesuaikan untuk berbagai jenis artefak pengiriman dengan mengikuti salah satu dari lima
contoh di Bagian 2 Rangkaian Pembandingan DataPerf bagian.2. Pengguna juga dapat mengirimkan sistem yang
sepenuhnya terkontainerisasi sebagai artefak, seperti dalam tantangan proses debug. (2) Untuk mendukung beragam
algoritma evaluasi dan metrik penilaian, kami mengembangkan adaptor perangkat lunak modular untuk
memungkinkan menjalankan alat evaluasi benchmark khusus dan menampilkan atau menanyakan skor di papan
peringkat online Dynabench. (3) Untuk memprioritaskan skalabilitas, DataPerf menerapkan model penerapan tanpa
server, yang memungkinkannya menskalakan sumber dayanya secara dinamis berdasarkan permintaan, memastikan
kinerja optimal dan alokasi sumber daya yang efisien. Dengan model ini, platform dapat secara otomatis berkembang
seiring dengan pertumbuhan rangkaian benchmark dan jumlah peserta. Basis kode asli yang berfokus pada NLP telah
dimodulasi untuk memberikan dukungan arsitektur yang dapat diperluas untuk kebutuhan spesifik dari tantangan
individu. Misalnya, tantangan Adversarial Nibbler memerlukan dukungan API untuk beberapa penyedia AI generatif.
Penyempurnaan pada Dynabench ini memastikan DataPerf dapat dengan mudah dan murah menyesuaikan dengan
jumlah peserta dan mengakomodasi tolok ukur data-sentris di masa depan dari komunitas. Semua tantangan DataPerf,
kecuali Adversarial Nibbler (karena penggunaan API berlisensi), juga menawarkan skrip evaluasi offline, memungkinkan
pengirim mengulangi solusi mereka sebelum mengirimkannya ke Dynabench. Hal ini mengurangi beban pada server
Dynabench dan semakin meningkatkan skalabilitas DataPerf.

Tolok ukur DataPerf dan platform Dynabench bersifat sumber terbuka, dan dihosting serta dikelola oleh
Asosiasi MLCommons6, sebuah organisasi nirlaba yang didukung oleh lebih dari 50 perusahaan anggota
dan akademisi, memastikan ketersediaan dan manfaat jangka panjang bagi masyarakat.

4 Pekerjaan Terkait

Metode data-sentris telah muncul sebagai fokus penelitian baru dalam pembelajaran mesin. DCBench [12]
adalah tolok ukur algoritma yang membangun dan menganalisis kumpulan data. Ini terdiri dari beragam tugas,
seperti memilih sampel pelatihan terbaik untuk pembersihan. DCBench beroperasi melalui API Python standar
untuk menjalankan evaluasi. DataComp [13] adalah kompetisi baru-baru ini yang berfokus pada pemfilteran
data pelatihan multimodal skala web untuk pasangan bahasa-gambar, dengan fokus pada peningkatan akurasi
berdasarkan anggaran komputasi tetap yang berbeda. Tantangan Data Crowdsourcing Adverse Test Set for
Machine Learning (CATS4ML) [3] meminta peserta untuk menemukan contoh yang membingungkan atau
bermasalah untuk diproses oleh algoritme, dimulai dengan klasifikasi gambar. CATS4ML meminta peserta untuk
mengirimkan sampel yang salah klasifikasi dari kumpulan data Google Open Images dan mampu menghasilkan
15.000 contoh permusuhan. Kami mendapatkan inspirasi dari upaya-upaya di atas, meskipun fokus kami adalah
membangun serangkaian tugas data-sentris yang relevan dengan industri dengan meminta tolok ukur data-
sentris yang dikontribusikan oleh pengguna untuk mendorong evolusi jangka panjang di bidang ini.

5 Pernyataan Etika
Dynabench mengumpulkan nama pengguna dan alamat email yang dinyatakan sendiri pada saat pendaftaran, dan
nama pengguna ini mungkin sesuai dengan informasi identitas pribadi. Dynabench juga mengumpulkan artefak yang
diunggah selama pengiriman yang secara opsional dapat dilihat oleh pengguna lain sebagai hasil benchmark terbuka.

Adversarial Nibbler memerlukan pedoman tambahan bagi peserta karena mereka mengumpulkan konten sensitif yang
berisi penggambaran berbahaya dan mengganggu yang mungkin berdampak negatif pada peserta. Ini

5https://dynabench.org/
6https://www.mlcommons.org/

9
pedoman mengikuti praktik terbaik untuk melindungi dan mendukung kesejahteraan peserta dan penilai
manusia [21], dan menyediakan komunikasi antara penyelenggara tantangan dan peserta, daftar langkah-
langkah untuk bersiap bekerja dengan gambar yang berpotensi tidak aman, dan daftar sumber daya eksternal
untuk dukungan psikologis . Hal ini dirinci lebih lanjut dalam Lampiran kami pada materi tambahan.

6 Kesimpulan dan Pekerjaan Masa Depan

Tujuan DataPerf adalah untuk meningkatkan pembelajaran mesin dengan memperluas penelitian AIhanyamodel ke
modeldan kumpulan data. Tolok ukur ini bertujuan untuk meningkatkan praktik standar pengembangan kumpulan data,
dan menambah ketelitian dalam menilai kualitas kumpulan pelatihan dan pengujian, di berbagai macam aplikasi ML.
Pembandingan kumpulan data yang sistematis sangat penting, sesuai dengan pepatah “apa yang diukur akan
ditingkatkan.” Versi awal DataPerf terdiri dari lima tolok ukur, masing-masing dengan aturan unik, metode evaluasi, dan
implementasi dasar, serta platform evaluasi sumber terbuka dan dapat diperluas.

DataPerf akan terus berkembang dengan menambahkan tolok ukur tambahan ke rangkaiannya, dengan masukan dan
kontribusi dari komunitas. Selain itu, untuk meningkatkan reprodusibilitas tantangan dan memperluas cakupan
evaluasi, kami berencana menambahkan 'Divisi Tertutup' di mana peserta harus mengirimkan algoritme yang kemudian
dievaluasi pada 'set pelatihan tersembunyi', yang berarti algoritme tersebut diuji pada data yang belum pernah dilihat
oleh pengirim. Hal ini mengevaluasi apakah algoritme dapat melakukan generalisasi di luar distribusi kumpulan data
asli. Kami mendorong pihak-pihak yang berkepentingan untuk bergabung dengan Kelompok Kerja DataPerf, dan
berpartisipasi serta berkontribusi pada tantangan benchmarking kami dihttps://dataperf.org.

Referensi
[1] Amazon. Pertukaran data Amazon aws, 2023. (Diakses pada 22/05/2023).

[2] L. Aroyo, M. Lease, P. Paritosh, dan M. Schaekermann. Keunggulan data untuk ai: mengapa Anda
harus peduli?Interaksi , 29(2):66–69, 2022.

[3] L. Aroyo, P. Paritosh, S. Ibtasam, D. Bansal, K. Rong, dan K. Wong. Kumpulan pengujian permusuhan
untuk klasifikasi gambar: Pelajaran dari tantangan data cat4ml.Sedang ditinjau , 2021.

[4] Y. Belinkov, A. Poliak, SM Shieber, B. Van Durme, dan AM Rush. Jangan anggap
remeh premis: Mengurangi artefak dalam inferensi bahasa alami.Prosiding
Pertemuan Tahunan ke-57 Asosiasi Linguistik Komputasi , 2019.

[5]Bloomberg. Api Bloomberg, 2023. (Diakses pada 22/05/2023).

[6] K. Bollacker, C. Evans, P. Paritosh, T. Sturge, dan J. Taylor. Freebase: database grafik yang dibuat
secara kolaboratif untuk menyusun pengetahuan manusia. Di dalamProsiding konferensi
internasional ACM SIGMOD 2008 tentang Manajemen data , halaman 1247–1250, 2008.

[7] J. Buolamwini dan T. Gebru. Nuansa gender: Disparitas akurasi titik-temu dalam klasifikasi gender
komersial. Di dalamKonferensi tentang keadilan, akuntabilitas dan transparansi , halaman 77–91.
Prosiding Penelitian Machine Learning, 2018.

[8] K. Crawford dan T. Paglen. Menggali ai: Politik set pelatihan untuk pembelajaran mesin,
September 2019.

[9] Databricks. Pasar data Databricks, 2023. (Diakses pada 22/05/2023).

[10] J.Deng, W.Dong, R.Socher, L.-J. Li, K.Li, dan L. Fei-Fei. Imagenet: Database gambar hierarki
berskala besar. Di dalamKonferensi IEEE 2009 tentang visi komputer dan pengenalan pola ,
halaman 248–255. Ieee, 2009.

[11] E. Denton, A. Hanna, R. Amironesei, A. Smart, H. Nicole, dan MK Scheuerman. Membawa orang-orang
kembali terlibat: Melawan kumpulan data pembelajaran mesin benchmark.arXiv pracetak
arXiv:2007.07399 , 2020.

[12] S. Eyuboglu, B. Karlaš, C. Ré, C. Zhang, dan J. Zou. Dcbench: Tolok ukur untuk sistem AI yang
berpusat pada data. New York, NY, AS, 2022. Asosiasi Mesin Komputasi.

10
[13] SY Gadre, G. Ilharco, A. Fang, J. Hayase, G. Smyrnis, T. Nguyen, R. Marten, M. Wortsman,
D.Ghosh, J.Zhang, dkk. Datacomp: Mencari kumpulan data multimodal generasi berikutnya.
arXiv pracetak arXiv:2304.14108 , 2023.

[14] W. Gaviria Rojas, S. Diamos, K. Kini, D. Kanter, V. Janapa Reddi, dan C. Coleman. Kumpulan data
dollar street: Gambar yang mewakili keragaman geografis dan sosioekonomi dunia.
Kemajuan dalam Sistem Pemrosesan Informasi Neural , 35:12979–12990, 2022.

[15] M. Geva, Y. Goldberg, dan J. Berant. Apakah kita memodelkan tugas atau anotatornya?
penyelidikan bias anotator dalam kumpulan data pemahaman bahasa alami.arXiv pracetak
arXiv:1908.07898 , 2019.

[16] J. Godfrey, E. Holliman, dan J. McDaniel. Switchboard: korpus pidato telepon untuk penelitian dan
pengembangan. Di dalam[Prosiding] ICASSP-92: Konferensi Internasional IEEE tentang Akustik,
Pidato, dan Pemrosesan Sinyal tahun 1992 , halaman 517–520, 1992.

[17] N. Goel dan B. Faltings. Crowdsourcing dengan keadilan, keragaman dan keterbatasan anggaran |
prosiding konferensi aaai/acm 2019 tentang AI, etika, dan masyarakat.Asosiasi Mesin Komputasi ,
halaman 297–304, 2019.

[18] S. Gururangan, S. Swayamdipta, O. Levy, R. Schwartz, SR Bowman, dan NA Smith.


Artefak anotasi dalam data inferensi bahasa alami.Prosiding Konferensi Asosiasi
Linguistik Komputasi Cabang Amerika Utara: Teknologi Bahasa Manusia 2018 ,
2018.

[19] B. Karlaš, D. Dao, M. Interlandi, B. Li, S. Schelter, W. Wu, dan C. Zhang. Proses debug data
dengan kepentingan shapley pada pipeline pembelajaran mesin end-to-end.arXiv pracetak
arXiv:2204.11131 , 2022.

[20] D. Kiela, M. Bartolo, Y. Nie, D. Kaushik, A. Geiger, Z. Wu, B. Vidgen, G. Prasad, A. Singh,
P. Ringshia, dkk. Dynabench: Memikirkan kembali benchmarking di nlp.Prosiding
Konferensi Asosiasi Linguistik Komputasi Cabang Amerika Utara: Teknologi Bahasa
Manusia Tahun 2021 , 2021.

[21] H. Kirk, A. Birhane, B. Vidgen, dan L. Derczynski. Menangani dan menyajikan teks berbahaya
dalam penelitian nlp. Di dalamTemuan Asosiasi Linguistik Komputasi: EMNLP 2022 , halaman
497–510, 2022.

[22] O. Kovaleva, A. Romanov, A. Rogers, dan A. Rumshisky. Mengungkap rahasia kelam Bert, 2019.

[23] A. Kuznetsova, H. Rom, N. Alldrin, J. Uijlings, I. Krasin, J. Pont-Tuset, S. Kamali, S. Popov,


M. Malloci, A. Kolesnikov, dkk. Kumpulan data gambar terbuka v4.Jurnal Internasional
Visi Komputer , 128(7):1956–1981, 2020.

[24] M. Mazumder, C. Banbury, J. Meyer, P. Warden, dan VJ Reddi. Pencarian kata kunci yang sedikit dalam
bahasa apa pun.arXiv pracetak arXiv:2104.01454 , 2021.

[25] M. Mazumder, S. Chitlangia, C. Banbury, Y. Kang, JM Ciro, K. Achorn, D. Galvez,


M. Sabini, P. Mattson, D. Kanter, dkk. Korpus kata-kata yang diucapkan multibahasa. Di dalamKonferensi
Ketiga Puluh Lima tentang Kumpulan Data dan Jalur Tolok Ukur Sistem Pemrosesan Informasi Neural
(Putaran 2) , 2021.

[26] N. Mehrabi, F. Morstatter, N. Saxena, K. Lerman, dan A. Galstyan. Survei tentang bias dan
keadilan dalam pembelajaran mesin.Survei Komputasi ACM (CSUR) , 54(6):1–35, 2021.

[27] A. Ng, L. He, dan D. Laird. Kompetisi AI Berpusat Data, 2021.

[28] J.Pineau. Pembelajaran penguatan yang dapat direproduksi, dapat digunakan kembali, dan kuat, 2018.

[29] A. Poliak, J. Naradowsky, A. Haldar, R. Rudinger, dan B. Van Durme. Hipotesis hanya menjadi
dasar dalam inferensi bahasa alami.Prosiding Konferensi Gabungan Ketujuh tentang
Semantik Leksikal dan Komputasi , 2018.

11
[30] P. Rajpurkar, J. Zhang, K. Lopyrev, dan P. Liang. Pasukan: 100.000+ pertanyaan untuk
pemahaman teks oleh mesin.arXiv pracetak arXiv:1606.05250 , 2016.

[31] J. Rando, D. Paleka, D. Lindner, L. Heim, dan F. Tramèr. Menggabungkan kembali filter keamanan
difusi yang stabil.arXiv pracetak arXiv:2210.04610 , 2022.

[32] MT Ribeiro, S. Singh, dan C. Guestrin. Aturan permusuhan yang setara secara semantik untuk
men-debug model nlp. Di dalamProsiding pertemuan tahunan ke-56 asosiasi linguistik
komputasi (volume 1: makalah panjang) , halaman 856–865, 2018.

[33] D. Sculley, G. Holt, D. Golovin, E. Davydov, T. Phillips, D. Ebner, V. Chaudhary, M. Young,


J.-F. Crespo, dan D. Dennison. Hutang teknis tersembunyi dalam sistem pembelajaran mesin.Kemajuan
dalam sistem pemrosesan informasi saraf , 28, 2015.

[34] TAUS. Pasar data Taus, BloombergAPI. (Diakses pada 22/05/2023).

[35] M.Tsuchiya. Dampak kinerja yang disebabkan oleh bias tersembunyi dari data pelatihan untuk mengenali
keterlibatan tekstual.Prosiding Konferensi Internasional Kesebelas tentang Sumber Daya dan Evaluasi
Bahasa , 2018.

[36] Twitter. Twitter api, 2023. (Diakses pada 22/05/2023).

[37] E. Wallace, S. Feng, N. Kandpal, M. Gardner, dan S. Singh. Pemicu permusuhan universal untuk
menyerang dan menganalisis nlp.Prosiding Konferensi Metode Empiris dalam Pemrosesan
Bahasa Alami 2019 dan Konferensi Gabungan Internasional ke-9 tentang Pemrosesan Bahasa
Alami (EMNLP-IJCNLP) , 2019.

[38] D. Weissenborn, G. Wiese, dan L. Seiffe. Membuat neural QA sesederhana mungkin tetapi tidak
sederhana. Dalam R. Levy dan L. Specia, editor,Prosiding 21st Conference on Computational
Natural Language Learning (CoNLL 2017), Vancouver, Kanada, 3-4 Agustus 2017 , halaman
271–280. Asosiasi Linguistik Komputasi, 2017.

[39] C. Welty, P. Paritosh, dan L. Aroyo. Metrologi untuk ai: Dari tolok ukur hingga instrumen.arXiv
pracetak arXiv:1911.01875 , 2019.

12
A Lampiran

A.1 Reproduksibilitas

Kami menyediakan tautan ke setiap repositori benchmark, yang berisi kode dan dokumentasi agar dapat
direproduksi.

1.Seleksi Pidato:Garis dasar tolok ukur pemilihan perangkat pelatihan pidato


tersedia dihttps://github.com/harvard-edge/dataperf-speech-example
2.Seleksi untuk Visi: Dasar pemilihan set pelatihan visi
patokan akan tersedia dihttps://github.com/CoactiveAI/
dataperf-visi-seleksi,kami sedang dalam proses merilis kode.
3.Men-debug untuk Visi:Garis dasar debugging visi tersedia dihttps://github.com/
DS3Lab/dataperf-vision-debugging
4.Akuisisi Data:Garis dasar akuisisi data tersedia dihttps://github. com/
facebookresearch/Data_Acquisition_for_ML_Benchmark
5.Penggigit Musuh:Karena tantangan Adversarial Nibbler berfokus pada data crowdsourcing,
maka tidak ada kode awal atau hasil dasar untuk peserta. Kode server untuk tantangan ini
tersedia sebagai bagian dari Dynabench (Bagian 3Platform Evaluasibagian.3) di https://
github.com/mlcommons/dynabench

A.2 Seleksi Pidato

Pada Gambar 4Kata kunci target dan jumlah sampel untuk pemilihan ucapan.gambar.caption.8, kami
menyediakan jumlah jumlah sampel pelatihan dan evaluasi yang tersedia untuk setiap kata kunci target, dan
data nontarget, untuk tiga bahasa dalam tolok ukur. Semua sampel evaluasi target diverifikasi kebenarannya
melalui pendengaran manual. Untuk setiap bahasa, seorang peserta melatih model enam kategori (lima kata
target dan satu kategori nontarget), menggunakan maksimal 25 atau 60 sampel yang diambil dari kelompok
pelatihan. Evaluasi dilanjutkan dengan melatih sepuluh model menggunakan sepuluh benih acak, dan untuk
setiap model, melaporkan skor makro F1 pada semua sampel evaluasi untuk kata target dan nontarget untuk
setiap bahasa.

Gambar 4:Targetkan kata kunci dan jumlah sampel untuk pemilihan ucapan.

A.3 Penggigit Musuh


A.3.1 Antarmuka Pengguna dan Jenis Prompt

Gambar 5 Antarmuka Pengguna untuk Adversarial Nibbler. Perintah subversif“kuda tergeletak di saus tomat”
menghasilkan gambaran kekerasan yang dihasilkan oleh model difusi. Gambar yang dihasilkan telah diamati
scured.figure.caption.9 menunjukkan antarmuka pengguna untuk mengumpulkan perintah yang tidak aman. Peserta dapat memberikan
secara pura-purapetunjuk yang ramahatau dengan sengajapetunjuk subversif. Perintah yang tidak berbahaya dapat mencakup bahasa yang
mungkin bias atau tidak, namun bukan merupakan prima facie yang dimaksudkan untuk menghasilkan produk yang tidak aman.

13
gambar-gambar. Misalnya, meskipun kalimat “seorang sekretaris sedang duduk di mejanya menunggu bos” mungkin berisi
bahasa yang bias gender, hal ini bukanlah permintaan langsung untuk gambar yang eksplisit secara seksual, namun beberapa
model difusi menampilkan gambar yang tidak aman. Sebaliknya, perintah subversif dimaksudkan untuk melewati filter keamanan
(misalnya, perintah “kuda berbaring di saus tomat” menghasilkan gambaran kekerasan).

Gambar 5:Antarmuka Pengguna untuk Adversarial Nibbler. Perintah subversif“kuda tergeletak di saus tomat”
menghasilkan gambaran kekerasan yang dihasilkan oleh model difusi. Gambar yang dihasilkan telah dikaburkan.

A.3.2 Etika dan Petunjuk bagi Peserta

Karena tantangan Adversarial Nibbler bersifat crowdsourced dan mengumpulkan konten yang berpotensi
sensitif, kami menyertakan tangkapan layar pedoman (Gbr. 6Petunjuk partisipasi untuk Adversarial
Nibblerfigure.caption.10) dan sumber daya (Gbr. 7FAQ untuk Adversarial Nibblerfigure.caption.11) yang
diberikan kepada peserta.

Dukungan Kesejahteraan.Untuk mendukung para peserta melalui kompetisi, kami telah menyiapkan pedoman
ekstensif untuk berpartisipasi7dan FAQ. Kami mengakui dan memahami bahwa beberapa generasi gambar
mungkin berisi penggambaran yang berbahaya dan mengganggu. Kami telah meninjau dengan cermat
rekomendasi praktis dan praktik terbaik untuk melindungi dan mendukung kesejahteraan peserta dan penilai
[21] dengan langkah-langkah berikut:

1.Komunikasi:Kami telah menciptakan saluran kendur untuk memastikan ada jalur komunikasi
langsung dan terbuka antara peserta dan penyelenggara tantangan.

7https://www.dataperf.org/adversarial-nibbler/nibbler-participation

14
Gambar 6:Instruksi partisipasi untuk Adversarial Nibbler

2.Persiapan:Kami memberikan peserta daftar tips praktis tentang cara bersiap menghadapi citra tidak aman dan
melindungi diri mereka sendiri selama tahap pengumpulan data, seperti membagi pekerjaan menjadi
beberapa bagian yang lebih pendek, berbicara dengan anggota tim lain, dan sering beristirahat.8
3.Mendukung:Kami menyediakan daftar ekstensif sumber daya eksternal, tautan, dan halaman bantuan untuk
dukungan psikologis dalam kasus trauma perwakilan.9

Kami tidak meminta peserta mana pun untuk memvalidasi gambar lain untuk mengurangi potensi bahaya dan
stres pada peserta saat melihat gambar dan perintah yang dibuat oleh peserta lain. Semua validasi dilakukan
oleh penilai terlatih yang memiliki akses ke sumber daya tambahan.

8Penanganan Traumatis Perumpamaan: Mengembangkan A Standar Pengoperasian Prosedur


https://dartcenter.org/resources/handling-traumatic-imagery-developing-standard-operating-procedure
9 Perangkat Trauma Perwakilanhttps://ovc.ojp.gov/program/vtt/compendium-resources

15
Gambar 7:FAQ untuk Adversarial Nibbler

16

Anda mungkin juga menyukai