2Departemen Ilmu dan Teknologi Komputer, Universitas Tsinghua, Beijing 100084, Tiongkok
{xucc18, liu-q16}@mails.tsinghua.edu.cn
aihuang@tsinghua.edu.cn , jiang@cs.ucr.edu
Abstrak
1 pengantar
Penemuan obat tradisional bergantung pada pengembangan dan eksplorasi oleh ahli kimia dan ahli farmasi,
yang memakan waktu karena ruang struktur kimia yang besar [33]. Metode yang efektif untuk mengumpulkan
struktur kimia dengan sifat yang diinginkan akan secara signifikan mengurangi jumlah calon percobaan
laboratorium basah dan dengan demikian mempercepat pengembangan obat baru.
Baru-baru ini, beberapa metode telah diusulkan untuk memecahkan masalah optimasi molekuler dalam kerangka
pembelajaran yang mendalam.16, 36, 17, 19, 30, 10]. Tantangan utama untuk optimasi molekuler terutama terletak
pada menghasilkan struktur molekul yang valid dan secara efisien menjelajahi ruang struktur kimia yang luas. Meskipun
beberapa metode, termasuk [34, 19, 16, 36], telah diusulkan untuk memecahkan tantangan pertama, mereka
melibatkan arsitektur jaringan yang kompleks atau berjuang untuk mengoptimalkan properti karena pilihan
representasi molekul [16, 19]. Tantangan kedua ditangani oleh optimasi Bayesian (BO) [16, 19, 25] dan pembelajaran
penguatan (RL) [36]. Namun, beberapa dari metode ini dianggap sebagai biaya tinggi untuk mengevaluasi sifat
molekuler dalam aplikasi dunia nyata.17]. Faktanya, untuk sebagian besar sifat kimia dan biologi, seperti antibakteri,
antikanker, dan teratogenisitas, tidak ada fungsi eksplisit yang diketahui untuk secara langsung menafsirkan struktur
kimia sebagai skor properti numerik yang sesuai. Oleh karena itu, eksperimen atau simulasi laboratorium basah yang
memakan waktu biasanya diperlukan untuk mengevaluasi sifat-sifat molekul ini, sehingga menghasilkan sejumlah
molekul dengan validasi tervalidasi.
Konferensi ke-34 tentang Sistem Pemrosesan Informasi Saraf (NeurIPS 2020), Vancouver, Kanada.
Gambar 1: Ilustrasi kerangka kerja kami. Kami pertama menyimpulkan tata bahasa NCE molekul dengan
mewakili molekul sebagai grafik molekul, parsing grafik menggunakan aturan yang dikendalikan lingkungan,
dan mengekstrak aturan produksi. Dalam proses pembangkitan, jaringan kebijakan berbasis GCN mengambil
sampel urutan produksi dari ruang tindakan dan memperoleh imbalan dari fungsi penghargaan. Fungsi reward
mengukur properti spesifik dari molekul yang didekodekan dari urutan aksi yang dihasilkan.
properti. Oleh karena itu, menghasilkan molekul dengan sifat yang diinginkan menggunakan sejumlah kecil
evaluasi sifat serta sejumlah kecil molekul dengan sifat yang diketahui sangat penting.
Untuk mengatasi tantangan ini, kami mengusulkan MNCE-RL, kerangka kerja berbasis RL menggunakan tata
bahasa embedding yang dikendalikan lingkungan molekul yang diusulkan dan jaringan konvolusi grafik (GCN).
Tata bahasa graf embedding yang dikendalikan lingkungan molekul diperluas dari tata bahasa embedding yang
dikendalikan lingkungan (NCE) [7, 14], yang merupakan jenis tata bahasa grafik bebas konteks berurutan.
Seperti yang ditunjukkan pada Gambar1, tata bahasa NCE molekuler dapat disimpulkan dari grafik molekul
input sehingga setiap molekul dapat direpresentasikan sebagai pohon parse. Dalam proses pembangkitan, agen
RL menghasilkan urutan aturan produksi, dan menerima hadiah dari lingkungan, yang mengukur properti
spesifik dari molekul yang dihasilkan, yang dapat digunakan untuk memperbarui jaringan kebijakan GCN. Tata
bahasa molekuler NCE yang kami usulkan menjamin validitas kimia dan agen RL dapat secara efisien menjelajahi
ruang struktur kimia yang luas.
Kontribusi utama kami meliputi 1) tata bahasa NCE molekuler baru dan algoritme yang efisien untuk
menyimpulkan aturan produksi dari molekul tertentu, di mana tata bahasa menyediakan cara untuk
menyederhanakan pembuatan molekul yang valid; 2) arsitektur GCN baru yang memperbarui fitur simpul dan
tepi untuk menghitung vektor fitur untuk simpul dalam grafik molekuler, di mana pembaruan fitur tepi di GCN
memungkinkan untuk menangkap perbedaan fisik yang halus antara ikatan dengan label yang sama dan
dengan demikian mengarah ke lebih baik fitur simpul untuk pengambilan keputusan kebijakan; 3) hasil
eksperimen menunjukkan bahwa MNCE-RL secara signifikan mengungguli metode mutakhir dalam optimasi
molekuler dan memiliki potensi tinggi untuk berguna dalam penemuan obat.
2 Pekerjaan terkait
Metode awal [30, 10, 4, 11] mewakili molekul sebagai string SMILES [34], di mana generasi molekul dimodelkan
sebagai proses keputusan Markov (MDP) dan jaringan saraf berulang digunakan untuk menghasilkan string
SMILES. Dibandingkan dengan representasi grafik, representasi SMILES cukup rapuh karena perubahan kecil
pada string dapat menyebabkan molekul yang sama sekali berbeda, yang membuatnya sulit untuk
mengoptimalkan sifat molekul [17]. Musim dingindkk. [35] mengoptimalkan sifat molekuler dalam ruang laten
kontinu yang dipelajari dari string SMILES untuk mengatasi kerapuhan representasi SMILES. Lidkk. [22] upaya
pertama untuk menghasilkan molekul dengan representasi grafik dan mencapai hasil yang menjanjikan dalam
menghasilkan molekul baru dan realistis, tetapi metode mereka tidak dapat menjamin validitas molekul yang
dihasilkan. Untuk mengurangi rasio molekul yang tidak valid, Jindkk. [16] (JT-VAE) mengusulkan untuk mewakili
molekul dengan pohon persimpangan di mana setiap simpul di pohon mewakili sekelompok atom dan
mengoptimalkan sifat dalam ruang laten dari autoencoder variasi (VAE) oleh BO. Meskipun batasan validitas
kimia secara intrinsik dipenuhi oleh koneksi yang telah ditentukan sebelumnya dalam cluster, ketidakpastian
dalam menggabungkan cluster yang dihasilkan membatasi kemampuan model untuk mengoptimalkan sifat
molekuler. Kamudkk. [36] (GCPN) mencoba menghasilkan grafik molekuler dengan menambahkan atom dan
tepi secara iteratif menggunakan jaringan kebijakan konvolusi grafik dan menjamin validitas kimia dengan
pengenaan batasan kimia tertentu pada struktur yang dihasilkan. jatuh tempo
2
untuk arsitektur modelnya yang kompleks, GCPN memerlukan sejumlah besar iterasi dalam pelatihan,
yang membatasi penerapannya dalam situasi ketika evaluasi properti membutuhkan biaya. Kajino [17]
(MHG-VAE) adalah yang pertama menerapkan tata bahasa grafik untuk masalah optimasi molekuler.
Dengan arsitektur VAE yang sederhana, MHG-VAE menunjukkan keunggulan dalam optimasi molekuler
dengan jumlah evaluasi properti yang terbatas. Namun, kinerja MHG-VAE masih jauh dari memuaskan
mungkin karena pilihan tata bahasa dan optimasi tidak langsung di ruang laten.
3 Metode
Sebagai disebutkan dalam [17], optimasi molekuler dapat dirumuskan sebagai berikut:
Menggunakan tata bahasa NCE molekul yang diusulkan, generasi molekul baru ditafsirkan sebagai
generasi pohon parse, di mana setiap simpul di pohon mewakili aturan produksi. Selanjutnya, dengan
melintasi pohon parse secara preorder, masalah optimasi molekuler diinterpretasikan sebagai
pembangkitan urutan produksi yang optimal,yaitu
Melecut= argmaxMelecutPf ◦ DesemberP(Melecut), (2)
dimana P adalah himpunan semua urutan yang valid dari aturan produksi dan DesemberP : P → M adalah fungsi
decoding yang mengubah urutan produksi menjadi molekul. Masalahnya dapat dilemparkan sebagai
MDP dan diselesaikan dalam kerangka RL, di mana GCN digunakan untuk agregasi fitur node. Diberikan
urutan produksi menengah Melecutuntuk dihasilkan pada langkah waktu t, karena kendala tata
bahasa NCE molekuler, aturan produksi berikutnya hanya dapat dipilih dari subset produksi
aturan. Kami menunjukkan aturan produksi untuk menjadi legal untukMelecutuntuk jika memenuhi batasan gramatikal.
Seperti disebutkan di atas, generasi urutan aturan produksi dapat dirumuskan sebagai masalah keputusan
berurutan. Oleh karena itu, kami menyajikan desain representasi negara, ruang tindakan, dan fungsi
penghargaan sebagai berikut.
Negara. Kami menunjukkan negara suntuk pada langkah waktu untuk sebagai urutan perantara Melecutt = p1p2...puntuk-1, dari mana
grafik Huntuk dapat didekodekan dan node non-terminal vuntuk untuk ditulis ulang pada langkah waktu t + 1 aku s
bertekad. Perhatikan bahwa pada langkah pertama,Melecut1 adalah barisan kosong dan H1 hanya memiliki satu simpul v1
dengan simbol awal.
Tindakan. Ruang aksi adalah seperangkat aturan produksi legal untuk Melecutt. Dalam langkah waktu t, kebijakan
π(Sebuaht|st) sampel aturan produksi dari ruang aksi, di mana
π(Sebuaht|st) = softmax(Fθ(Htelevisi W+b), untuk
(3)
di mana F adalah GCN yang dijelaskan di bagian 3.4, θ' adalah himpunan parameter dari F, dan = {P, b} ∪ θ.
Fθ(Ht) adalah matriks fitur simpul yang dihitung dari Huntuk dan Fθ(Htelevisi adalah baris yang sesuai dengan simpul v
t. Grafik molekul perantara diperbarui dengan yang samauntukaturan produksi yang dijanjikan.
Penghargaan. Karena proses pembangkitan mungkin membutuhkan terlalu banyak langkah untuk konvergen, kami menetapkan ambang batas Tmaksimal
dan memaksa proses pembangkitan untuk berhenti ketika jumlah langkah melebihi Tmaks. Asumsikan panjang
barisan yang dihasilkan adalah T - 1. Pada langkah waktu t < T , hadiah kecil yang konstan rε ditugaskan dan
pada langkah waktu T , jika tidak ada simpul non-terminal di HT , fungsi hadiah khusus tugas memberikan
hadiah berdasarkan f ◦ DesemberP(HT ). Jika tidak, hadiah non-positif yang konstan rtidak sesuai ditugaskan.
Tata bahasa grafik NCE diusulkan oleh Janssens et al. [14] adalah sebuah sistem G = (,, P), dimana Σ adalah
himpunan label simpul, dan ΔΣ ⊂ Σ adalah alfabet terminal dan P adalah seperangkat aturan produksi. SEBUAH
3
Gambar 2: (a) Contoh aturan produksi dan langkah derivasi. Sini,x dan tidakΣ adalah label non-
terminal. Aturan produksi dalam bentuk (, , ). Dalam langkah derivasi, menerapkan aturan produksi
p akan menggantikan node non-terminal vt (dengan label x) dalam grafik perantara Huntuk dengan RS () dari
hal, dan tepi antara tetangga dari vuntuk dan node di Vβ ditentukan oleh fungsi embedding .
(b) Ekstraksi aturan produksi. Bhal, Tp dan tidakp adalah himpunan simpul. H' adalah subgraf yang diinduksi simpul dari
H LHS diperoleh dengan merepresentasikan node dalam Tp sebagai node non-terminal, menghilangkan
tepi antara node di Bp dan memberi label pada node di Bp sebagai tidak. RHS diperoleh dengan
menghapus node di Bp dari H dan mengganti subgraf yang terhubung di H' oleh node non-terminal.
Definisi 1 Tata bahasa molekuler NCE adalah sebuah sistem G = (, ,,Δ, P), dimana Σ adalah himpunan
label simpul, Ψ set label tepi, Δ= \ {x, n, s} alfabet terminal node,
Δ= \ {tidak} alfabet terminal dari tepi, s simbol awal, dan tidakΣ dan tidakΨ label kosong untuk node
dan edge, masing-masing. Akhirnya,P adalah seperangkat aturan produksi. Aturan produksi
berupa p = (, , ) dimana:
• V= {Xp} Bhal, E= {Xp} × Bhal, dimanaXp adalah simpul non-terminal dengan σ(Xp) = x
dan Bp adalah himpunan node dengan ∀v Bhal, σ(v) = nΣ
• V= Tp Tidakhal, Eβ (Tp × Tp) (Tp × tidakp), dimana Tp dan tidakp adalah himpunan node dengan
∀v Tidakhal, σ(v) = x
Dua masalah pertama yang disebutkan di atas ditangani dengan menentukan: ψ, ψβ dan . Untuk meringankan masalah ketiga,
kami memperkenalkan label kosong yang dapat dicocokkan secara sewenang-wenang, tidakΣ dan tidak, dalam lebih
cara umum. Label node diBp digantikan oleh tidakΣ dan untuk aturan produksi yang rumit, hanya kerangka β
disimpan. Aturan produksi menentukan tepi yang datang ke setiap simpul dan dengan demikian
validitas valensi dapat dijamin secara intrinsik. Untuk menentukan ruang tindakan pada setiap langkah, kami mendefinisikan
aturan produksi hukum sebagai berikut.
Definisi 2 Membiarkan Tuntuk menjadi pohon perantara. JikaTuntuk adalah pohon kosong, aturan produksi legal untuk Tuntuk
adalah seperangkat aturan produksi awal. JikaTuntuk tidak kosong dan kita perlu mengambil sampel seorang anak
4
aturan produksi untuk orang tua pinduk yang sudah memiliki seperangkat aturan produksi anak Psaudara kandung, maka graf
perantara Huntuk dengan simpul non-terminal vuntuk untuk ditulis ulang di langkah waktu berikutnya bisa
didekode{d dari Tt. Misalkan tetangga langsung dari vuntuk adalah {vtidak1 , vtidak2 , ..., vn } danted,
Luntuk
kami mengatakan bahwa a k
mengurutkan himpunan tepi (vt, vn ), (vt, vn ), ..., (vt, vn) dalam urutan di mana vtidak adalah genus
produksi{aturan produksip1 pertandingan 2konteksnyak vuntuk jika dan hanya jika edge-indsayasubgraf uced dari Huntuk ditentukan
oleh (v , v ), (v , v ), ..., (v , v ) dan dipesan oleh L isomorfik terhadap LHS dari p [15]. Kemudian
untuk tidak1 untuk tidak2 untuk tidakk untuk
• jika pinduk kompleks dan vuntuk Tp induk , setiap aturan produksi yang memiliki empiris positif
kemungkinan P(pp| induk , Psaudara kandung) dan mencocokkan konteks context vuntuk adalah sah untuk Tuntuk
• jika tidak, aturan produksi apa pun yang cocok dengan konteks vuntuk adalah sah untuk Tuntuk
Contoh aturan produksi dan langkah derivasi ditunjukkan pada Gambar 2. Menerapkan produksi
aturan p ke grafik perantara Huntuk untuk menulis ulang node non-terminal vuntuk akan menggantikan vuntuk dengan RHS
dari hal, dan tepi antara tetangga langsung dari vuntuk dan node di RHS ditentukan oleh fungsi
embedding. Sebuah gagasan formal dari langkah derivasi didefinisikan sebagai berikut.
Definisi 3 Membiarkan Tuntuk menjadi pohon parse perantara dan aturan produksi p = (, , ) adalah sah untuk Tt.
Grafik perantara Huntuk dan simpul non-terminal vuntuk dapat didekode dari Tt. Langkah derivasi dari penerapan p
untuk Huntuk akan menghasilkan grafik baru Ht+1 dengan menulis ulang simpul vt, dimana
Huntuk untuk
aturan produksi dari molekul yang diketahui, setiap molekul sampel dari
Dengan definisi ini, dengan belajar
tata bahasa yang disimpulkan secara kimia valid. Perbandingan tata bahasa yang kami usulkan dan MHGs
[17] ditunjukkan dalam Lampiran B.
Itu algoritma untuk mengurai grafik molekuler dan menyimpulkan aturan produksi ditunjukkan pada Lampiran B.
Kami mengurutkan simpul dari H dalam orde depth-first (DF), dan untuk node v dengan tetangga first-hop
{vtidak1 , vtidak2 , ..., vtidakk } , tepi (v, vtidak{1), (v, vtidak2), ..., (v, vn )} diurutkan agar konsisten dengan
kS dan RHS diekstraksi dari H mewarisi
RHS diperoleh dengan menghapus node di Bp dari H dan mewakili setiap subgraf terhubung dari H' dengan
simpul non-terminal. Untuk aturan produksi yang kompleks (LampiranSEBUAH), langkah pertama adalah
juga menghitung LHS, merekam fungsi embedding, menghapus node di Bhal, dan substitusikan subgraf terhubung ke
dalam H' menjadi node non-terminal. Pada langkah terakhir, seperti yang telah dibahas pada bagian sebelumnya,
untuk mengurangi jumlah aturan produksi, kami hanya menyimpan kerangka RHS, dan labelnya
dari semua node di Tp dan label semua tepi di RHS diganti dengan tidakΣ dan tidak. Untuk menjaga
informasi, kami memperkenalkan aturan produksi tambahan untuk setiap node di Thal. Contoh untuk mengurai grafik
molekul dan mengambil sampel molekul dari tata bahasa ditunjukkan pada Lampiran SEBUAH.
Jaringan konvolusi grafik (GCN) [9, 12, 23, 21, 8, 18] telah banyak diterapkan dalam agregasi
informasi graf. Kami merepresentasikan node dan edge dengan vektor fitur. Dalam forward pass,
GCN memperbarui fitur node dan fitur edge dan mengeluarkan fitur yang dihitung untuk
5
semua node di lapisan terakhir. Dengan asumsi bahwa ukuran fitur dari tepi adalahSE, fitur simpul adalah
diperbaharui oleh
(l) adalah matriks fitur simpul pada lapisan ke-th, (l) aku s
dimana AGG adalah fungsi agregasi, V aku E(saya) itu
sayamatriks fitur th dari tepi, dan W* * dan b* * adalah parameter jaringan. Fitur tepi adalah
diperbarui dalam dua langkah. Pada langkah pertama, kami menghitung vektoreaku j , yang mengkodekan hubungan
antara saya-simpul ke- dan j-simpul ke-th menggunakan rumus berikut:
e(l+1) = ReLU(Concat(V(l+1),V(l+1))saya
aku j
P(l+1) + b(l+j 1)), e e (5)
Untuk menghasilkan molekul dengan sifat yang diinginkan, banyak digunakan Teknik RL, Kebijakan Proksimal
Pengoptimalan [29] (PPO), diadopsi untuk melatih model. Fungsi tujuan] dari PPO adalah
[
LKLIP () =untuk menit(rt()Ât, klip (rt(), 1 - , 1 + )Ât) , (7)
dimana ε adalah hiperparameter, θ adalah parameter kebijakan, Êuntuk menunjukkan harapan empiris lebih
langkah waktu, dan runtuk adalah rasio peluang di bawah kebijakan baru dan lama, yaitu
πθ (Sebuah s t| t)
rt = , (8)
πθtua (sebuah
tt) |
dimana θtua adalah set parameter dari kebijakan lama. SEBUAHuntuk adalah perkiraan keuntungan [28] pada langkah waktu t.
Kami menghitung kritik aktor C(·) di SEBUAHuntuk sebagai
dimana F adalah GCN dengan set parameter ω, ω adalah set parameter kritikus aktor dan =
{WC, bC} ∪ ω. Itu Rata-rata fungsi menghitung rata-rata atas fitur simpul. Untuk mendorong model
menghasilkan grafik dengan keragaman tinggi, kehilangan entropi [24] juga ditambahkan ke kerugian
fungsi, dan untuk mempercepat konvergensi, kami mengambil semua molekul kebenaran dasar sebagai
lintasan ahli dan melatih model sebelumnya dengan lintasan ini. Rincian pelatihan model dan optimasi
hyperparameter ditampilkan dalam LampiranF.
4 Eksperimen
Itu Kumpulan data molekul ZINC250k [13], paket GuacaMol [3] dan 2.337 molekul obat dari [31]
digunakan dalam percobaan kami. Dataset ZINC250k berisi 250.000 molekul mirip obat yang nomor atom
maksimumnya adalah 38. Pekerjaan di [31] menyediakan 2.337 molekul obat dan efek penghambatannya
untuk E.coli dikumpulkan dari percobaan laboratorium basah. Dengan ambang 0,2, 120 dari 2.337
molekul yang memiliki . kuatE.coli penghambatan pertumbuhan didefinisikan sebagai himpunan positif
dan molekul yang tersisa dianggap sebagai himpunan negatif. GuacaMol adalah paket benchmark
komprehensif untuk optimasi molekuler yang menyediakan lebih dari satu juta molekul dan mencakup
tidak hanya tujuan tunggal tetapi juga tugas optimasi terbatas dan multi-tujuan. Validitas molekul yang
dihasilkan diperiksa oleh RDKit [20]. Statistik tata bahasa NCE molekuler yang disimpulkan disediakan di
LampiranC2.
6
4.2 Hasil optimasi molekuler
Untuk mendemonstrasikan kemampuan MNCE-RL dalam optimasi molekuler dalam skenario aplikasi
yang berbeda, kami merancang serangkaian eksperimen dan membandingkan MNCE-RL dengan metode
mutakhir saat ini. Pengaturan percobaan rinci dari model dasar [35, 17, 16, 36] disediakan di Lampiran D.
Optimalisasi properti dengan evaluasi tak terbatas dan studi ablasi. Dalam percobaan ini,
kami berasumsi bahwa biaya evaluasi properti dapat diabaikan dan berapa kali untuk menanyakan
properti molekul tidak terbatas. Skor logP penalti dan skor QED digunakan untuk mengevaluasi kinerja
model. Di sini, LogP adalah estimasi dari koefisien partisi oktanol-air dan logP yang dikenai penalti juga
memperhitungkan ukuran cincin dan aksesibilitas sintetik [6]. QED [2] adalah skor komputasi untuk
mengukur kemiripan obat suatu molekul. Untuk mengukur kinerja setiap metode, kami melaporkan 3
skor properti teratas, skor terbaik ke-50, dan skor rata-rata dari 50 molekul teratas. Fungsi penghargaan
khusus tugas yang kami gunakan dalam pendekatan kami adalah proyeksi linier dari skor logP atau QED
yang dikenai sanksi yang dihitung. Hasilnya ditunjukkan pada Tabel1 dan Lampiran G. Untuk menyelidiki
kontribusi spesifik dari tata bahasa yang kami usulkan dan struktur GCN dalam percobaan ini, kami
membangun model menggunakan GCN klasik [9, 36] tanpa pembaruan fitur tepi (MCE-RLOEU). Sebagai
ditunjukkan dalam tabel, MNCE-RLOEU mencapai kinerja mutakhir dalam mengoptimalkan logP dan QED
yang terkena penalti dan secara signifikan mengungguli GCPN, yang menunjukkan efektivitas
tata bahasa. Selain itu, dibandingkan dengan MHGs, tata bahasa yang kami usulkan mencapai tingkat cakupan yang
lebih tinggi (LampiranC), dan dengan demikian dapat mewakili lebih banyak struktur molekul dan menjelajahi ruang
kimia dengan lebih efektif. Utilitas mekanisme pembaruan fitur tepi juga dikonfirmasi oleh fakta
bahwa MNCE-RL mengungguli MNCE-RLOEU signifikan dalam mengoptimalkan logP yang terkena penalti.
JT-VAE 5.30 4.93 4.49 3.50 3.93 100% 0,942 0,934 0,930 0,896 0,912 100%
GCPN 7.98 7.85 7.80 - - 100% 0,948 0,947 0,946 - - 100%
MHG-VAE 5.56 5.40 5.34 4.12 4.49 100% 0,947 0,946 0,944 0,920 0,929 100%
MSO 14.44 14.20 13.95 13,49 13,67 - 0,948 0,948 0,948 0,948 0,948 -
MCE-RLOEU 14.49 14.44 14.36 14.13 14.16 100% 0,948 0,948 0,948 0,948 0,948 100%
MCE-RL 18.33 18.18 18.16 17,52 17,76 100% 0,948 0,948 0,948 0,948 0,948 100%
Optimalisasi properti terbatas. Tugas ini bertujuan untuk menghasilkan molekul dengan skor logP penalti yang
ditingkatkan sambil menjaga struktur serupa dengan molekul target yang diberikan. Berbeda dari metode
sebelumnya, seperti GCPN, yang dapat menghasilkan molekul baru mulai dari molekul tertentu, pertama-tama
kami melatih model kami untuk memaksimalkan kemungkinan log dari molekul target dan kemudian
mengoptimalkan logP yang dihukum. Hadiah khusus tugas memberikan skor konstan kecil jika kesamaan turun
di bawah ambang batas dan memberikan proyeksi linier dari skor logP yang dihukum jika kesamaan lebih besar
dari ambang batas. Hasilnya ditunjukkan pada Tabel2 dan Lampiran G, Dimana δ adalah ambang batas skor
kesamaan. MNCE-RL mampu mengoptimalkan semua molekul dengan tingkat keberhasilan 100% pada kedua
ambang batas dan untuk setiap ambang batas, MNCE-RL mencapai peningkatan logP yang secara signifikan
lebih tinggi daripada semua model dasar. Meskipun skor kesamaan rata-rata dari molekul yang dihasilkan oleh
MNCE-RL sedikit lebih rendah daripada yang dihasilkan oleh model dasar, peningkatan dalam logP dihukum
yang dicapai oleh MNCE-RL dengan ambang kesamaan 0,6 secara signifikan lebih tinggi daripada model dasar
dengan ambang 0,4, menunjukkan keunggulan MNCE-RL.
Evaluasi komprehensif dengan GuacaMol. Eksperimen ini secara komprehensif mengukur kemampuan
model dalam mengoptimalkan properti dengan evaluasi tak terbatas. Hasilnya ditunjukkan pada Tabel
3, di mana BNGM mewakili hasil terbaik dari baseline naif yang disediakan dalam manuskrip GuacaMol [3
]. Kinerja MNCE-RL melebihi baseline pada semua benchmark. Secara khusus, metode kami secara
signifikan mengungguli baseline dalam tugas optimasi multi-tujuan, menunjukkan keunggulan MNCE-RL
dalam skenario yang kompleks.
7
Tabel 2: Hasil optimasi properti terbatas
= 0.4 = 0.6
metode
Perbaikan Kesamaan Keberhasilan Perbaikan Kesamaan Keberhasilan
JT-VAE 0,84 ± 1.45 0,51 ± 0,10 83,6% 0.21 ± 0,71 0,69 ± 0,06 46,4%
GCPN 2.49 ± 1.30 0,47 ± 0,08 100% 0,79 ± 0.63 0.68 ± 0,08 100%
MHG-VAE 1.00 ± 1.87 0,52 ± 0.11 43,5% MNCE- 0,61 ± 1.20 0,70 ± 0,06 17,0%
RL 5.29 ± 1.58 0,45 ± 0,05 100% 3.87 ± 1.43 0,64 ± 0,04 100%
Metode Metode
Tolok ukur Tolok ukur
BNGM MSO MNCE-RL BNGM MSO MNCE-RL
Penemuan kembali Celecoxib 1.0 1.0 1.0 Osimertinib MPO 0,953 0,966 1.0
Penemuan kembali Troglitazon 1.0 1.0 1.0 Fexofenadine MPO 0.998 1.0 1.0
Penemuan kembali Thiothixene 1.0 1.0 1.0 Ranolazine MPO 0,920 0,931 0,990
Kesamaan Aripiprazole 1.0 1.0 1.0 Perindopril MPO 0,808 0,834 0.882
Kesamaan Albuterol 1.0 1.0 1.0 Amlodipin MPO 0,894 0,900 0,920
Kesamaan mestranol 1.0 1.0 1.0 Sitagliptin MPO 0,891 0,868 0,904
C11H24 0.993 0.997 1.0 Zaleplon MPO 0,754 0,764 0,781
C9H10N2O2PF2Cl 0,982 1.0 1.0 Valsartan SMARTS 0,990 0,994 1.0
Molekul median 1 0,438 0,437 0,455 Perancah Hop 1.0 1.0 1.0
Molekul median 2 0,432 0,395 0,457 Deco Hop 1.0 1.0 1.0
Penargetan rentang properti. Eksperimen ini mengukur kemampuan model untuk menghasilkan beragam molekul
dengan beberapa properti tertentu dalam rentang yang telah ditentukan [36], di mana keragaman didefinisikan sebagai
jarak Tanimoto berpasangan rata-rata antara sidik jari Morgan dari molekul yang dihasilkan [26]. LogP terhukum dan
berat molekul (MW) dipertimbangkan dalam tugas ini di mana rentang yang ditentukan sebelumnya sama dengan yang
digunakan dalam [36]. Imbalan khusus tugas dalam pendekatan kami berbanding terbalik dengan jarak antara skor
properti dari molekul yang dihasilkan dan pusat kisaran yang telah ditentukan sebelumnya. Hasilnya ditunjukkan pada
Tabel4. Model kami mencapai lebih dari 90% tingkat keberhasilan dalam keempat tugas dengan keragaman tinggi [36]
dan tingkat keberhasilan lebih dari 99% dalam menargetkan jangkauan
500 ≤ MW ≤ 550, yang secara signifikan mengungguli metode state-of-the-art.
Optimalisasi properti dengan evaluasi properti terbatas. Tugas ini mengukur kemampuan model untuk
mengoptimalkan molekul ketika evaluasi properti mahal. Seperti yang dilakukan di [17], kami membatasi jumlah
kueri properti molekul hingga 500. Kami mengulangi MNCE-RL sepuluh kali dan mengambil 500 molekul
pertama yang dihasilkan sebagai keluaran setiap kali untuk mendapatkan total 5k molekul. Imbalan yang
ditentukan tugas sama seperti dalam pengoptimalan properti dengan evaluasi properti tak terbatas. 3 skor
properti teratas, skor terbaik ke-50, dan skor rata-rata dari 50 molekul teratas dicatat. Hasilnya ditunjukkan pada
Tabel5 dan Lampiran G. Model kami secara signifikan mengungguli semua metode dasar. Menariknya, bahkan
dengan evaluasi properti terbatas, metode kami masih berkinerja lebih baik daripada JT-VAE dan MHG-VAE
dengan evaluasi tak terbatas. Selain itu, 50 molekul dengan skor teratas yang dihasilkan oleh MNCE-RL memiliki
skor logP terhukum rata-rata yang lebih tinggi daripada molekul dengan skor tertinggi yang dihasilkan oleh
semua baseline, yang menunjukkan keunggulan MNCE-RL dalam situasi ketika mahal untuk mengevaluasi sifat
molekul.
8
Tabel 5: Hasil optimasi properti dengan evaluasi properti terbatas
Generasi molekul baru dengan sifat antibakteri. Eksperimen ini menunjukkan MNCE-RL
kemampuan untuk membantu penemuan obat dalam skenario aplikasi dunia nyata ketika jumlah molekul yang
divalidasi secara eksperimental terbatas dan tidak ada fungsi evaluasi yang diketahui. Kami pertama melatih
pengklasifikasi pada 2.337 molekul dari [31] untuk membedakan sampel positif dan negatif dan menggunakan
pengklasifikasi sebagai fungsi evaluasi semu. Kemudian, kami mengekstrak aturan produksi dari molekul-molekul ini.
Masalahnya dimodelkan sebagai optimasi properti di mana kami mencoba menemukan molekul yang menerima skor
tinggi dari pengklasifikasi. Karena pengklasifikasi sangat berlebihan, ketika melatih model pembangkitan, kami
berasumsi bahwa molekul baru yang dihasilkan adalah negatif dan menggunakan "sampel negatif" ini untuk
memperbarui pengklasifikasi guna mengurangi bias. Setelah pelatihan, skor kinase inhibitor, skor protease inhibitor,
dan skor enzim inhibitor [27, 32, 5, 1] (Lihat Lampiran E untuk rincian) dari 10 molekul teratas dengan skor tertinggi
yang diberikan oleh pengklasifikasi dilaporkan. Hasilnya ditunjukkan pada LampiranG dan Tabel 6. Sepuluh dari sepuluh
molekul adalah bioaktif (dengan skor lebih besar dari 0,2; lihat Tabel6) dengan setidaknya satu skor inhibitor, dan enam
di antaranya sangat bioaktif (dengan skor lebih besar dari 0,5), yang menggambarkan kemampuan MNCE-RL untuk
menghasilkan molekul kandidat antibakteri hanya dengan sampel berlabel terbatas.
Dalam makalah ini, kami mengusulkan metode baru MNCE-RL berdasarkan novel tata bahasa NCE molekuler
untuk memecahkan masalah optimasi molekuler dalam kerangka RL. MNCE-RL mencapai kinerja mutakhir
dalam serangkaian eksperimen sistematis. Dalam aplikasi dunia nyata, ketika molekul dengan sifat yang
diketahui terbatas dan tidak ada fungsi evaluasi numerik yang diketahui, metode kami masih menunjukkan
potensi tinggi untuk menghasilkan molekul dengan sifat yang diinginkan, menunjukkan utilitas potensi besar
dalam penemuan obat. Meskipun tata bahasa yang kami usulkan menjamin validitas valensi dari struktur yang
dihasilkan, ia berjuang untuk menangkap sifat kimia tingkat tinggi seperti orde ikatan. Kami menyerahkannya
untuk pekerjaan di masa depan.
Menemukan obat-obatan yang efektif untuk penyakit selalu menjadi tantangan dalam industri farmasi,
terutama ketika obat-obatan presisi semakin menarik perhatian dalam beberapa tahun terakhir. Pendekatan
kami menyediakan cara yang efisien untuk menghasilkan molekul dengan sifat tertentu, yang akan membantu
9
mengurangi beban kerja apoteker, mempercepat pengembangan obat baru, dan menurunkan
biaya desain obat. Di sisi lain, meskipun molekul yang dihasilkan oleh metode kami memiliki sifat
biologis atau kimia yang diinginkan, keamanan dan efektivitasnya pada pasien masih perlu
divalidasi dalam proses uji klinis normal.
Pekerjaan ini telah didukung sebagian oleh hibah National Science Foundation of China
61772197, Program Penelitian dan Pengembangan Kunci Nasional Tiongkok memberikan
2018YFC0910404 dan Institut Guoqiang Universitas Tsinghua dengan hibah no. 2019GQG1.
Referensi
[1] EA Alodeani, M. Arshad, dan MA Izhari. Aktivitas anti-uropatogenik, kemiripan obat, fisikokimia
dan penilaian docking molekuler dari (e-)-n'-(diganti-benzylidene)-2- (quinolin-8-yloxy)
acetohydrazide.Jurnal Biomedis Tropis Asia Pasifik, 5(8):676–
683, 2015.
[3] N. Brown, M. Fiscato, MH Segler, dan AC Vaucher. Guacamol: model pembandingan untuk
desain molekul de novo.Jurnal informasi dan pemodelan kimia, 59(3):1096–1108,
2019.
[4] H. Dai, Y. Tian, B. Dai, S. Skiena, dan L. Song. Autoencoder variasi yang diarahkan sintaks untuk
data terstruktur.pracetak arXiv arXiv:1802.08786, 2018.
[5] NS El-Dina dan A. Barseemb. Studi sintesis, bioaktivitas, dan docking beberapa turunan
indolehidrazon baru.Jurnal Ilmu Farmasi Terapan, 6(12):075–083, 2016.
[6] P. Ertl dan A. Schuffenhauer. Estimasi skor aksesibilitas sintetis molekul mirip obat
berdasarkan kompleksitas molekul dan kontribusi fragmen.jurnal kimia, 1(1):8,
2009.
[7] H. Fahmy dan D. Blostein. Sebuah survei tata bahasa grafik: Teori dan aplikasi. DiKonferensi
Internasional tentang Pengenalan Pola, halaman 294–294. PERS MASYARAKAT KOMPUTER
IEEE, 1992.
[8] H. Gao dan S. Ji. Grafik u-net. DiKonferensi Internasional tentang Pembelajaran Mesin, halaman
2083–2092, 2019.
[9] J. Gilmer, SS Schoenholz, PF Riley, O. Vinyals, dan GE Dahl. Pesan saraf lewat untuk kimia
kuantum. DiProsiding Konferensi Internasional ke-34 tentang Pembelajaran Mesin-Volume
70, halaman 1263–1272. JMLR. org, 2017.
[12] W. Hu, B. Liu, J. Gomes, M. Zitnik, P. Liang, V. Pande, dan J. Leskovec. Jaringan saraf grafik pra-
pelatihan.ArXiv, abs/1905.12265, 2019.
[13] JJ Irwin dan BK Shoichet. Seng- database gratis senyawa yang tersedia secara komersial untuk
penyaringan virtual.Jurnal informasi dan pemodelan kimia, 45(1):177–182, 2005.
[14] D. Janssens dan G. Rozenberg. Tata bahasa grafik dengan embedding yang dikontrol oleh lingkungan.
Ilmu Komputer teoretis, 21(1):55–74, 1982.
10
[15] X. Jiang dan H. Bunke. Isomorfisme kuadrat-waktu optimal dari grafik berurutan.Pengenalan
Pola, 32(7):1273-1283, 1999.
[16] W. Jin, R. Barzilay, dan T. Jaakkola. Autoencoder variasi pohon persimpangan untuk pembuatan grafik
molekul. DiKonferensi Internasional tentang Pembelajaran Mesin, halaman 2323–2332, 2018.
[17] H. Kajino. Tata bahasa hipergraf molekuler dengan penerapannya pada optimasi molekuler. Di
Konferensi Internasional tentang Pembelajaran Mesin, halaman 3183–3191, 2019.
[18] J. Kim, T. Kim, S. Kim, dan CD Yoo. Jaringan saraf grafik pelabelan tepi untuk pembelajaran
beberapa kali. DiProsiding Konferensi IEEE tentang Visi Komputer dan Pengenalan Pola,
halaman 11–20, 2019.
[20] G. Landrum. Rdkit: Rangkaian perangkat lunak untuk kimia, kimia komputasi, dan pemodelan
prediktif, 2013.
[21] R. Li, S. Wang, F. Zhu, dan J. Huang. Jaringan saraf konvolusi grafik adaptif. Di
Konferensi AAAI tiga puluh detik tentang kecerdasan buatan, 2018.
[22] Y. Li, O. Vinyals, C. Dyer, R. Pascanu, dan P. Battaglia. Mempelajari model graf generatif
mendalam.pracetak arXiv arXiv:1803.03324, 2018.
[23] R. Liao, Z. Zhao, R. Urtasun, dan RS Zemel. Lanczosnet: Jaringan konvolusi grafik dalam multi-
skala. DiKonferensi Internasional ke-7 tentang Representasi Pembelajaran, ICLR 2019,
2019.
[24] V. Mnih, K. Kavukcuoglu, D. Silver, A. Graves, I. Antonoglou, D. Wierstra, dan M. Riedmiller. Bermain atari
dengan pembelajaran penguatan yang mendalam.pracetak arXiv arXiv:1312.5602, 2013.
[25] J. Močkus. Pada metode bayesian untuk mencari ekstrem. DiTeknik optimasi konferensi teknis
IFIP, halaman 400–404. Springer, 1975.
[26] D. Rogers dan M. Hahn. Sidik jari konektivitas yang diperluas.Jurnal informasi dan pemodelan
kimia, 50(5):742–754, 2010.
[27] AJ Schaenzer, N. Wlodarchak, DH Drewry, WJ Zuercher, WE Rose, R. Striker, dan J.-D. Sauer.
Sebuah layar untuk inhibitor kinase mengidentifikasi antimikroba imidazopyridine
aminofurazans sebagai inhibitor spesifik dari listeria monocytogenes pasta kinase prka.Jurnal
Kimia Biologi, 292(41)::17037–17045, 2017.
[28] J. Schulman, P. Moritz, S. Levine, M. Jordan, dan P. Abbeel. Kontrol kontinu dimensi tinggi
menggunakan estimasi keuntungan umum.pracetak arXiv arXiv:1506.02438, 2015.
[29] J. Schulman, F. Wolski, P. Dhariwal, A. Radford, dan O. Klimov. Algoritme pengoptimalan kebijakan
proksimal.pracetak arXiv arXiv:1707.06347, 2017.
[30] MH Segler, T. Kogej, C. Tyrchan, dan MP Waller. Menghasilkan perpustakaan molekul terfokus untuk
penemuan obat dengan jaringan saraf berulang.ilmu pusat ACS, 4(1):120-131, 2018.
[32] H.Umezawa. Inhibitor enzim dengan berat molekul rendah yang berasal dari mikroba.Ulasan Tahunan
dalam Mikrobiologi, 36(1):75–99, 1982.
[33] Walters dan W. Patrick. Perpustakaan kimia virtual: perspektif mini.jurnal kimia obat,
62(3):1116-1124, 2018.
11
[34] D. Weininger. Senyum, bahasa kimia dan sistem informasi. 1. pengenalan metodologi dan
aturan pengkodean.Jurnal informasi kimia dan ilmu komputer, 28(1):31–36,
1988.
[35] R. Winter, F. Montanari, A. Steffen, H. Briem, F. Noé, dan D.-A. Pintar. Optimasi molekuler multi-
tujuan yang efisien dalam ruang laten kontinu.ilmu kimia, 10(34):8016–
8024, 2019.
[36] J. You, B. Liu, Z. Ying, V. Pande, dan J. Leskovec. Jaringan kebijakan konvolusional grafik untuk pembuatan
grafik molekuler yang diarahkan pada tujuan. DiKemajuan dalam sistem pemrosesan informasi saraf,
halaman 6410–6421, 2018.
12