Goumagias2018 (Indo)

ACCEPTED MANUSCRIPT
Halaman 1
Naskah Diterima
Menggunakan Deep Q-learning untuk memahami perilaku penggelapan pajak
perusahaan yang menghindari risiko
Nikolaos D. Goumagias, Dimitrios Hristu-Varsakelis, Yannis Assael
PII:
S0957-4174 (18) 30053-8
DOI:
10.1016 / j.eswa.2018.01.039
Referensi:
ESWA 11787
Untuk tampil di:
Sistem Pakar Dengan Aplikasi
Tanggal diterima:
27 Oktober 2017
Tanggal revisi:
9 Januari 2018
Tanggal diterima:
25 Januari 2018
Silakan mengutip artikel ini sebagai: Nikolaos D. Goumagias, Dimitrios Hristu-Varsakelis,
Yannis Assael, Using
Deep Q-learning untuk memahami perilaku penghindaran pajak dari perusahaan yang
menghindari risiko, Expert Systems With
Applications (2018), doi: 10.1016 / j.eswa.2018.01.039
Ini adalah file PDF dari manuskrip yang belum diedit yang telah diterima untuk
publikasi. Sebagai sebuah layanan
kepada pelanggan kami, kami menyediakan naskah versi awal ini. Naskah akan menjalani
copyediting, penyusunan huruf, dan review dari bukti yang dihasilkan sebelum
dipublikasikan dalam bentuk akhirnya. Silahkan
perhatikan bahwa selama proses produksi, kesalahan dapat ditemukan yang dapat
mempengaruhi konten, dan
semua penafian hukum yang berlaku untuk jurnal terkait.
Halaman 2
MANUSCRIPT DITERIMA
MANUSCRIPT
DITERIMA
ACCEPTED MANUSCRIPT
Highlight
• Model pendukung keputusan berbasis Markov dengan fungsi penghargaan non-linier.
• Kompleksitas ditangani secara komputasi melalui pembelajaran Deep Q.
• Kami mengevaluasi berbagai skenario kebijakan pajak termasuk amnesti pajak sesekali.
• Hitunglah koefisien penghindaran risiko “rata-rata” perusahaan berdasarkan empiris
data.
• Pengampunan pajak memiliki dampak negatif jangka panjang pada penerimaan pajak.
1
Halaman 3
MANUSCRIPT DITERIMA
MANUSCRIPT
DITERIMA
Menggunakan Deep Q-learning untuk memahami penggelapan
pajak
perilaku perusahaan yang menghindari risiko
Nikolaos D. Goumagias a, ∗ , Dimitrios Hristu-Varsakelis b , Yannis Assael c ,
Northumbria University, Newcastle Business School, Central Kampus Timur 1, Newcastle upon
sebuah
Tyne, NE1 8ST, Inggris

b Universitas Makedonia, Departemen Informatika Terapan, Egnatia 156, Thessaloniki,
54006, Yunani
c Universitas Oxford, Departemen Ilmu Komputer, Gedung Wolfson, Parks Road,
Oxford, OX1 3QD, Inggris

Abstrak
Merancang kebijakan perpajakan yang efektif dalam mengekang penggelapan pajak dan
memaksimalkan negara
pendapatan membutuhkan pemahaman yang ketat tentang perilaku wajib pajak. Pekerjaan
ini mantan-
mempelajari masalah menentukan strategi pajak yang mementingkan diri sendiri dan
menghindari risiko
entitas diharapkan mengikuti, karena "bernavigasi" - dalam konteks Markov De-
Proses pengambilan keputusan - lingkungan pajak yang dikendalikan pemerintah yang
mencakup acak
audit, penalti, dan amnesti pajak sesekali. Meskipun versi yang disederhanakan
masalah ini telah dieksplorasi sebelumnya, hanya asumsi penghindaran risiko
(sebagai lawan dari risiko netralitas) meningkatkan kompleksitas dalam menemukan
kebijakan yang optimal
jauh di luar jangkauan teknik analitis. Di sini, kami mendapatkan solusi perkiraan
2
ACCEPTED MANUSCRIPT
tions melalui kombinasi Q-learning dan kemajuan terbaru di Deep Reinforcement

Belajar. Dengan demikian, kami i) menentukan perilaku penggelapan pajak yang
diharapkan dari
entitas wajib pajak, ii) menghitung tingkat penghindaran risiko dari entitas "rata-rata"
memberikan perkiraan empiris tentang penghindaran pajak, dan iii) mengevaluasi contoh
kebijakan pajak, di
hal pendapatan yang diharapkan. Model kami dapat berguna sebagai tempat pengujian
untuk "in-vitro"
pengujian kebijakan pajak, sementara hasil kami menghasilkan berbagai rekomendasi
kebijakan.
Kata Kunci: Proses Keputusan Markov, Penghindaran Pajak, Q-Learning, Deep
Belajar
Penulis yang sesuai
∗
Alamat email: nikolaos.goumagias@northumbria.ac.uk (Nikolaos D. Goumagias),

dcv@uom.gr (Dimitrios Hristu-Varsakelis), yannis.assael@cs.ox.ac.uk (Yannis Assael)
Pracetak dikirim ke Sistem Pakar dengan Aplikasi
31 Januari 2018
Halaman 4
MANUSCRIPT DITERIMA
MANUSCRIPT
DITERIMA
1. Perkenalan
Sementara gempa susulan dari krisis keuangan global terbaru masih dirasakan,
banyak pemerintah berjuang untuk menerapkan kebijakan publik karena defisit anggaran
atau pendapatan pajak tertinggal (Bayer et al., 2015). Akibatnya, masalah terakhir muncul
aktivitas ekonomi yang berkurang, atau ketika ada perasaan yang kuat di antara para
pembayar pajak
bahwa keuntungan pribadi yang diharapkan dari penghindaran pajak melebihi yang sesuai
manfaat sosial dari pembayaran pajak (Alm dan Beck, 1990; Bornstein dan Rosenhead,
1990). Ini, dengan tidak adanya sistem dan penegakan pajak yang dirancang dengan baik
mekanisme, mengarah pada penggelapan pajak, kejahatan serius yang melemahkan
pendapatan Negara
dan merusak rasa keadilan sosial, seperti yang tampaknya dinikmati oleh pembayar pajak
yang tidak jujur
barang publik yang sama seperti barang yang jujur. "Ekonomi bayangan" yang dihasilkan
juga
memiliki dampak buruk yang kuat pada peringkat kredit dan biaya pinjaman (Markellos et
al.,
3
ACCEPTED MANUSCRIPT
2016), program kesejahteraan, kebijakan fiskal dan pengangguran (Fleming et al., 2000).
Tentu saja, sistem perpajakan biasanya berisi berbagai pengamanan untuk mencegah pajak
penghindaran (didefinisikan di sini sebagai kegagalan yang disengaja untuk menyatakan
semua atau sebagian dari
datang ke otoritas pajak). Namun, dalam praktiknya, sistem pajak agak rumit
struktur kebijakan yang sulit dibuat “kedap udara” dalam hal penggelapan pajak,
karena alasan yang berkaitan dengan i) kadang-kadang ambiguitas dalam peraturan
perpajakan, yaitu
menghalangi kepatuhan dan penegakan pajak (Andreoni et al., 1998), dan ii) peraturan
perilaku erogen dari berbagai entitas wajib pajak, berdasarkan individu mereka
preferensi risiko (Hokamp dan Pickhardt, 2010).
Makalah ini prihatin dengan pengembangan komputasi yang ketat
kerangka kerja yang dapat menggambarkan dan memprediksi perilaku penghindar pajak,
asumsi-
menyadari bahwa mereka mementingkan diri sendiri dan bekerja untuk memaksimalkan
kegunaan mereka sendiri
pendapatan, menyeimbangkan potensi keuntungan dari penghindaran pajak dengan risiko
mendapatkan
tertangkap. Secara khusus, kami tertarik pada i) memperkirakan pendapatan Negara untuk
setiap
set parameter pajak yang diberikan (misalnya, tarif pajak dan denda), ii) pengujian apakah
3
Halaman 5
MANUSCRIPT DITERIMA
MANUSCRIPT
DITERIMA
peraturan pajak tertentu membantu atau tidak, dan iii) memprediksi bagaimana wajib pajak
-
dan kepatuhan pajak - tanggapi perubahan parameter. Item terakhir ini ditautkan ke
penghindaran risiko wajib pajak, pengetahuan yang akan membantu Negara menentukan
efek, misalnya, peningkatan denda pajak atau tarif pemeriksaan.
Isu-isu yang dikemukakan di atas sangat penting bagi Negara jika ingin mengetahui sejauh
mana
yang mana kebijakan pajaknya bekerja atau untuk menentukan peringkat kebijakan
alternatif dan mengambil langkah-langkahnya
untuk memaksimalkan pendapatan. Dalam pekerjaan ini, kami mengusulkan untuk
mengeksplorasi mereka menggunakan
4
ACCEPTED MANUSCRIPT
kombinasi dari deep neural network dan Q-learning untuk menentukan pajak
perilaku menghindar dari wajib pajak yang menghindari risiko (selanjutnya kita akan
menggunakan istilah "perusahaan"
karena kita akan tertarik terutama pada badan usaha). Kami akan mengembangkan dan
menguji pendekatan kami dalam konteks yang dibangun di atas karya Goumagias et
al. (2012)
(di mana hanya kasus netralitas risiko yang dianalisis) dan melibatkan pendekatan yang
mendekati
sistem pajak dunia, dengan banyak ornamen biasa seperti tarif pajak, acak
audit, sanksi, dan amnesti pajak sesekali, serta heterogenitas wajib pajak.
Seperti yang akan kita lihat, pengenalan penghindaran risiko ke dalam model dan hasilnya
nonlinieritas fungsi utilitas perusahaan digabungkan dengan dinamika perusahaan dan
mengarah pada peningkatan kompleksitas yang signifikan. Ini menempatkan masalah
dalam menemukan file
perilaku optimal perusahaan jauh di luar jangkauan metode dan kebutuhan analitis
teknik perkiraan yang kuat untuk dibawa ke beruang.
Kontribusi utama dari pekerjaan ini adalah i) penggunaan penguatan yang dalam
mempelajari teknik untuk mendapatkan solusi komputasi untuk kinerja optimal
perusahaan.
perilaku berdasarkan model dinamis Markov dari Goumagias et al. (2012) dan ii)
kerangka kerja komputasi untuk mengeksplorasi perilaku yang diharapkan dari
kepentingan diri sendiri
perusahaan yang menghindari risiko yang mungkin memilih untuk terlibat dalam
penggelapan pajak untuk memaksimalkan
utilitas mereka sendiri. Selain itu, dan atas dasar yang lebih praktis, kami memperkirakan
koefisien penghindaran risiko dari perusahaan "rata-rata" - atau kelompok perusahaan -
diberikan secara empiris
data tentang kepatuhan pajaknya dan mengevaluasi sampel kebijakan pajak dalam hal
manfaatnya.
efit untuk Negara (atau, setara, tingkat penghindaran pajak yang diakibatkannya). Untuk
kami
4
Halaman 6
MANUSCRIPT DITERIMA
MANUSCRIPT
DITERIMA
5
ACCEPTED MANUSCRIPT
pengetahuan, karya kami adalah pekerjaan pertama yang menerapkan pembelajaran

mendalam dalam konteks perpajakan
dan penggelapan pajak, dan yang pertama mendapatkan solusi yang mengungkapkan
perilaku a
perusahaan yang menghindari risiko pada skala waktu "baik", yaitu, berdasarkan tahun ke
tahun, berdasarkan
status yang berkembang di "mata" otoritas pajak. Kami memandang pendekatan kami
sebagai
sangat relevan baik dalam kaitannya dengan meningkatnya minat dalam aplikasi
pembelajaran yang mendalam
dan untuk peluang yang diberikan model kami kepada regulator dalam desain
kebijakan efektif yang membuat entitas berperilaku lebih jujur.
Sisa dari makalah ini disusun sebagai berikut. Di Bagian 2 kami kembali
melihat literatur yang relevan dan mendiskusikan bagaimana pendekatan kami
ditempatkan relatif terhadap
pekerjaan sebelumnya. Bagian 3 dimulai dengan penjelasan singkat tentang sistem pajak
di
yang dioperasikan perusahaan, dan menjelaskan parameter utama. Di Bagian yang sama
kami menggambarkan model berbasis Markov dari evolusi perusahaan melalui sistem
pajak-
tem dan mengajukan masalah pengoptimalan utama yang ingin kami selesaikan dan
tantangan komputasi yang terlibat. Pendekatan solusi kami, menggabungkan Q-learning
dan Deep Neural Networks, dijelaskan secara rinci di Bagian 4. Terakhir, Bagian 5
membahas
hasil yang kami peroleh - menggunakan sistem pajak Yunani sebagai studi kasus untuk
demi konkret - dan relevansinya dengan pertanyaan yang diajukan di atas tentang
perilaku yang diharapkan perusahaan, insentif untuk melaporkan keuntungan, tingkat
risiko
keengganan, dan implikasi kebijakan.
2. Pekerjaan terkait
Pekerjaan sebelumnya terkait dengan pemodelan perpajakan dan penghindaran pajak yang
optimal dapat dilakukan
dikelompokkan menjadi dua kategori utama: i) analitik (makroekonomi, dan prinsip-
berbasis agen), dan ii) komputasi (berbasis agen, berbasis simulasi). Semi-
Karya terakhir dalam kategori pertama adalah Allingham dan Sandmo (1972) yang
memperkenalkan a
model perpajakan yang optimal diajukan sebagai masalah alokasi portofolio. Beberapa
pelajar
ars dibangun di atas model itu dengan juga memperkenalkan pasokan tenaga kerja
(Yitzhaki, 1974; Baldry,
5
Halaman 7
MANUSCRIPT DITERIMA
6
ACCEPTED MANUSCRIPT
MANUSCRIPT
DITERIMA
1979) dan barang publik yang ditawarkan (Cowell, 1981). Kompleksitas dari phe-
nomenon disorot sejak awal oleh Clotfelter (1983) dan Crane dan Nourzad
(1986), yang menantang hubungan monotonik antara tarif pajak dan pajak
penghindaran. Salah satu kelemahan dari pendekatan analitis adalah seringnya mereka
melakukannya
tersirat lebih sedikit heterogenitas perilaku atas nama pembayar pajak daripada apa yang
disarankan
gested oleh bukti empiris (Andreoni et al., 1998), dan - agar tetap ada
patuh - mereka tidak dapat sepenuhnya menangkap dinamika penggelapan pajak
(Martinez-
Vazquez dan Rider, 2005).
Secara khusus, di luar masalah akuntansi untuk heterogenitas (misalnya, dalam
pembayaran pajak-
penghindaran risiko), terdapat banyak struktur yang menarik dalam perilaku pembayar
pajak
jika seseorang mempertimbangkan model "halus" evolusi mereka melalui sistem pajak.
Dalam pengaturan itu, seseorang harus memperhitungkan berbagai transisi acak wajib
pajak
dapat menjalani dari tahun ke tahun, seperti diaudit, atau ditawarkan kesempatan untuk
berpartisipasi dalam program pengampunan pajak (kami akan memberikan perincian
tentang opsi tersebut
segera), atau mengubah preferensi melalui interaksi dengan orang lain. Pertimbangan
seperti itu-
Tions telah menyebabkan sejumlah pendekatan berbasis komputasi baru-baru ini dalam
bentuk
berbasis otomat (Garrido dan Mittone, 2012) dan berbasis agen (Gao dan Xu,
2009) model. Pendekatan komputasi memungkinkan lebih banyak realisme, dengan
memiliki,
misalnya, sejumlah besar agen berinteraksi satu sama lain berdasarkan
karakteristik termined yang berkaitan dengan parameter perpajakan dan utilitas intrinsik
fungsi (Pickhardt dan Seibold, 2014). Keuntungan mereka adalah mereka dapat dari-
menemukan implikasi kebijakan yang berlandaskan empiris dan secara teoritis, tetapi
mereka
sering menderita karena keterbatasan analitis dari solusi yang mereka sarankan.
Suatu upaya untuk mengatasi keterbatasan tersebut sambil memodelkan tahun ke tahun
perilaku perusahaan dibuat oleh Goumagias et al. (2012), yang memperkenalkan file
7
ACCEPTED MANUSCRIPT
model parametrik Markov yang menggambarkan evolusi perusahaan rasional di dalamnya

sistem pajak Yunani. Tujuan perusahaan adalah untuk memaksimalkan jumlah
potongannya
pendapatan tahunan setelah pajak, mungkin dengan terlibat dalam penggelapan
pajak. Pekerjaan itu diperlihatkan
6
Halaman 8
MANUSCRIPT DITERIMA
MANUSCRIPT
DITERIMA
bahwa perusahaan akan berusaha menghindari pajak sebanyak mungkin berdasarkan
sistem saat ini diterapkan, dan menghasilkan "peta" yang menunjukkan kombinasi mana
parameter perpajakan menyebabkan perusahaan berperilaku jujur dan mana yang tidak. A
parah
Batasan Goumagias et al. (2012) adalah fakta bahwa itu hanya diterapkan pada file
kasus khusus entitas bebas risiko. Asumsi itu mempertahankan status perusahaan dan
ruang keputusan nyaman kecil (itu menyiratkan, misalnya, bahwa perusahaan itu optimal
keputusannya adalah jujur sepenuhnya atau menyembunyikan keuntungan sebanyak
mungkin,
menghilangkan opsi "perantara"), membuat masalah pengoptimalan wajib pajak
perilaku dipecahkan melalui Dynamic Programming (DP) (Bertsekas, 1995). Tentu saja,
sebagian besar entitas wajib pajak cenderung tidak netral risiko; dengan demikian, itu
menjadi perlu
untuk memasukkan penghindaran risiko ke dalam analisis agar dapat memprediksi
perilaku pembayar pajak spektrum luas dan mengeksplorasi efektivitas pajak
kebijakan dalam pengaturan yang lebih realistis.
Seperti yang akan kita bahas di Sec. 3.3, penghindaran risiko memperkenalkan nonlinier di
fungsi tujuan perusahaan, membuat metode analitis atau DP tidak efektif, dan kami
akan membutuhkan beberapa cara untuk menghindari kutukan dimensionalitas dalam
konteks itu.
Di antara berbagai alternatif, pemrograman dinamis berulang berpotensi
memungkinkan untuk solusi yang mudah diatur (Jaakkola et al., 1994), bagaimanapun,
metode itu
kemampuan terbatas ketika dihadapkan pada berbagai sumber ketidakpastian, seperti
halnya
sini. Solusi komputasi, termasuk metode kecerdasan buatan dan saraf
jaringan umum untuk perkiraan fungsi cost-to-go (Tsitsiklis dan Van Roy, 1996;
8
ACCEPTED MANUSCRIPT
Wheeler dan Narendra, 1986; Watkins, 1989) akan terbukti lebih menjanjikan

pengaturan kami. Metode berbasis pembelajaran penguatan, khususnya, perkiraan
fungsi cost-to-go melalui simulasi dan melakukan pendekatan fungsi melalui
regresi atau jaringan saraf (Gosavi, 2004). Pendekatan ini mencakup algoritme
seperti R-learning (Singh, 1994; Tadepalli dan Ok, 1996), dan Q-Learning (Sut-
ton dan Barto, 1998; Tsitsiklis, 1994). Salah satu keuntungan dari pembelajaran penguatan
yang akan berguna bagi kami adalah, tidak seperti DP, prosesnya dapat disetel ke
pembaruan
7
Halaman 9
MANUSCRIPT DITERIMA
MANUSCRIPT
DITERIMA
nilai fungsi biaya untuk pergi untuk negara bagian yang paling sering dikunjungi
(Tsitsiklis, 1994).
Algoritme pembelajaran mendalam yang baru-baru ini diusulkan telah sangat memperluas
cakupannya
penerapan kecerdasan buatan dan pembelajaran mesin, di luar "kelas
Cal ”masalah pengenalan pola (LeCun et al., 2015) dan telah menunjukkan hasil yang
bagus
janji dalam mendekati fungsi biaya-untuk-pergi nonlinier kompleks (Schmidhuber,
2015). Sampai saat ini, pembelajaran mendalam telah diterapkan pada masalah-masalah
yang menantang di
eas termasuk pengenalan dan pemrosesan gambar (Krizhevsky et al., 2012), ucapan
pengakuan (Mikolov et al., 2011), biologi (Leung et al., 2014), analisis keuangan-
perdagangan resmi (Krauss et al., 2017), jejaring sosial (Perozzi et al., 2014) dan manusia
perilaku (Ronao dan Cho, 2016). Di sini, kami akan memanfaatkan perkembangan terkini
dalam pembelajaran penguatan mendalam untuk mendapatkan solusi komputasi untuk
perilaku optimal perusahaan, dengan semua kompleksitas model kami. Ini membuka
pintu untuk keputusan kebijakan yang lebih tepat dengan menyediakan platform
komputasi
untuk membandingkan kebijakan pajak (misalnya, kebijakan dengan amnesti pajak vs
yang tidak), es-
mengukur tingkat penghindaran risiko perusahaan dari data empiris, memprediksi
pendapatan pajak yang diharapkan untuk pemerintah, atau menghitung dampak perubahan
dalam parameter pajak apa pun atas pendapatan.
3. Deskripsi model
9
ACCEPTED MANUSCRIPT
Kami melanjutkan dengan diskusi singkat tentang sistem pajak di mana perusahaan
tersebut
berkembang, diikuti oleh model matematika yang sesuai. Model itu
akan menjadi parametrik, dengan banyak "fitur" pajak yang biasa ditemui, di-
termasuk audit dan penalti acak. Tentu saja, ketika tiba saatnya untuk membuatnya
perhitungan, kita harus memilih nilai parameter (tarif pajak, dll.) untuk a
lokal tertentu. Kami akan fokus pada Yunani pada khususnya, demi beton-
ness dan karena, dengan penggelapan pajak menjadi masalah yang signifikan dan
berkepanjangan
8
Halaman 10
MANUSCRIPT DITERIMA
MANUSCRIPT
DITERIMA
di sana, seseorang dapat menarik kesimpulan yang menarik dan praktis. Namun, dasarnya
ketentuan pajak yang kami anggap muncul di sebagian besar sistem pajak, dan model kami
bisa jadi
disesuaikan untuk mendeskripsikan masalah di negara lain juga.
3.1. Sistem perpajakan dasar dengan amnesti opsional sesekali
Komponen dasar dari sistem perpajakan kami akan mencakup - seperti halnya di
sebagian besar negara - tarif pajak atas laba, audit acak untuk mengidentifikasi penghindar
pajak,
dan denda uang untuk pendapatan yang tidak dilaporkan. Hukuman itu ditambahkan ke
pajak asli karena pendapatan yang tidak dilaporkan yang ditemukan selama audit, akan
sebanding dengan jumlah pendapatan yang tidak dilaporkan dan waktu yang telah berlalu
sejak itu
pelanggaran itu terjadi. Kami juga akan mengizinkan penalti apa pun untuk didiskon
untuk pembayaran yang cepat. Otoritas pajak masing-masing akan mengaudit sebagian
kecil kasus
tahun tetapi akan mempertahankan hak untuk mengaudit pengembalian pajak perusahaan
selama beberapa tahun
di masa lalu. Setiap aktivitas penghindaran pajak di luar cakrawala itu akan
dipertimbangkan
berada di luar undang-undang batasan.
Model kami juga akan mencakup amnesti pajak opsional di mana pemerintah
kadang-kadang dapat mengizinkan entitas pembayar pajak untuk membayar biaya sebagai
ganti masa lalu
10
ACCEPTED MANUSCRIPT
deklarasi pajak ditutup untuk audit apa pun. Biaya "penutupan" ini akan dibayarkan secara
terpisah
baru-baru ini untuk setiap tahun pajak sebuah perusahaan ingin dibebaskan dari
kemungkinan audit. ini
Perlu dicatat bahwa daya tarik pengampunan pajak sebagai mekanisme pemungutan
pendapatan
biasanya diperkuat selama dan setelah resesi yang panjang (Ross dan Buckwalter, 2013;
Bayer et al., 2015). Amnesti lebih umum digunakan daripada yang diperkirakan.
Misalnya, hanya di AS, antara 1982 dan 2011, ada 104 kasus
beberapa bentuk pengampunan pajak (Ross dan Buckwalter, 2013). Contoh lainnya
termasuk
India (Das-Gupta dan Mookherjee, 1995), dan Rusia (Alm dan Rath, 1998). Di
Yunani, opsi penutupan yang disebutkan di atas ditawarkan kira-kira setiap 4-5
tahun selama 1998-2006 (misalnya, Kementerian Keuangan Hellenic (2004a) dan Hellenic
Kementerian Keuangan (2008)). Baru-baru ini, itu diperkenalkan kembali dalam bahasa
Yunani
9
Halaman 11
MANUSCRIPT DITERIMA
MANUSCRIPT
DITERIMA
parlemen dengan babak baru sedang dipertimbangkan (Kementerian Hellenic
Keuangan, 2004b). Penggunaan amnesti pajak yang tidak teratur sebagai penerimaan pajak
Mekanisme tion meningkatkan kompleksitas pengambilan keputusan baik atas nama
pemerintah dan wajib pajak. Penggunaan amnesti pajak oleh perusahaan pada dasarnya
menyusutkan kumpulan audit. Jadi, jika dalam beberapa tahun pemerintah menawarkan
penutupan
pilihan tetapi perusahaan menolak untuk menggunakannya, perusahaan tersebut
kemungkinan besar akan diaudit. Untuk
penjelasan yang lebih rinci tentang mekanisme penutupan, lihat Goumagias et al.
(2012). Dalam istilah praktis, satu pertanyaan yang ingin kami jawab adalah apakah
demikian
ukuran (meskipun memberikan beberapa pendapatan pajak langsung) sebenarnya
menyakitkan lama-
pendapatan berjangka karena mungkin bertindak sebagai insentif tandingan untuk
membayar hak
pajak (Bayer et al., 2015).
11
ACCEPTED MANUSCRIPT
3.2. Perilaku perusahaan yang menghindari risiko dengan penutupan opsional

Pekerjaan di Goumagias et al. (2012) mengkodifikasi evolusi waktu perusahaan
sistem pajak yang dijelaskan di atas, dalam model kompak berbasis Markov yang
mencakup
semua fitur dasar yang dijelaskan di Sec. 3.1, termasuk tarif pajak, denda, lima-
undang-undang tahun batasan untuk audit laporan pajak masa lalu, dan pajak sesekali
amnesti (penutupan). Kami akan membahasnya kembali di sini sebentar, dalam bentuk
sesingkat mungkin,
dan memperluasnya untuk tujuan kita.
Untuk sistem pajak dengan undang-undang pembatasan lima tahun pada pemeriksaan
pajak masa lalu
pernyataan, evolusi perusahaan dapat dijelaskan dengan persamaan keadaan linier
(Goumagias dkk., 2012)
x k + 1 = Ax k + Bu k + n k ,
(1)
di mana x (0) diberikan, dan A ∈ R 7 × 7 , B ∈ R 7 × 2 , n k ∈ R 7 adalah seperti pada
Lampiran A.
Keadaan perusahaan pada waktu diskrit k diberikan oleh tripel x k = [s k , c k , h T
k ] T ∈
S × {1,2}, × [0,1] 5 . Di sini, S adalah himpunan 15 elemen (dalam pembahasan berikut,
akan lebih mudah untuk menggunakan S = {1, ..., 15}), yang berisi kemungkinan pajak
perusahaan
10
Halaman 12
MANUSCRIPT DITERIMA
MANUSCRIPT
DITERIMA
status (lihat Goumagias et al. (2012) untuk penjelasan grafis): lima yang pertama
elemen S sesuai dengan perusahaan yang saat ini diaudit, dengan 1-5 tahun sejak itu
audit terakhirnya (setiap pernyataan pajak "lebih tua" dari 5 tahun berada di luar undang-
undang
batasan); elemen 6-10 sesuai dengan perusahaan yang menggunakan opsi penutupan
dengan
1-5 tahun telah berlalu sejak audit terakhir atau penutupannya; dan negara bagian 11-15
sesuai
ke perusahaan yang tidak diaudit selama 1-5 tahun (tidak sedang diaudit, atau
menggunakan
12
ACCEPTED MANUSCRIPT
penutupan). Dari elemen negara yang tersisa, c k adalah variabel dua tingkat yang
menunjukkan
apakah pemerintah telah menyediakan opsi penutupan pada waktu k, dan
h k berisi riwayat waktu dari 5 keputusan terakhir perusahaan sehubungan dengan pajak
penghindaran, dengan elemen dalam h mulai dari 0 (pengungkapan penuh) hingga 1
(perusahaan menyembunyikan
pendapatannya sebanyak mungkin).
Dalam Persamaan. 1, u k adalah vektor 2-elemen yang berisi tindakan perusahaan pada
tahun k; itu
elemen pertama, [u k ] 1 ∈ [0,1] menunjukkan bagian dari laba yang diputuskan oleh
perusahaan
menyembunyikan, sedangkan yang kedua, [u k ] 2 ∈ {0,1} adalah keputusan biner apakah
atau tidak
untuk menggunakan opsi penutupan, jika tersedia. Dalam suku n k = [ω k , ϵ k , 0 5 × 1
] T , ω k
menentukan elemen pertama dari vektor status "berikutnya", yaitu, status perusahaan di
sistem pajak (misalnya, diaudit atau tidak, atau dihapus dari audit tahun ini
pool dengan memanfaatkan opsi penutupan), menurut proses keputusan Markov
yang kemungkinan transisinya bergantung pada keadaan saat ini dan keputusan
perusahaan
untuk menggunakan penutupan (lihat Goumagias et al. (2012), juga diberikan dalam
Lampiran B untuk memfasilitasi
ulasan). Ε k seperti Bernoulli, mengambil nilai 2 saat pemerintah
menawarkan opsi penutupan (ini diasumsikan terjadi dengan beberapa probabilitas p 0 ),
atau
1 sebaliknya.
Perusahaan “menimbang” imbalannya (laba, ditambah pajak apa pun yang dapat
ditabungnya
menyatakan kurang dari itu) sesuai dengan fungsi utilitas penghindaran risiko relatif
konstan
U (z) =
z 1 − λ
1-λ
,
(2)
dengan λ menjadi koefisien penghindaran risiko yang terkait, dan z = g (x k , u k ) menjadi
11
Halaman 13
MANUSCRIPT DITERIMA
13
ACCEPTED MANUSCRIPT
MANUSCRIPT
DITERIMA
imbalan yang diterima perusahaan ketika di negara bagian x k dan mengambil tindakan
u k . Berdasarkan
deskripsi sebelumnya tentang aturan sistem pajak, g (·, ·) diberikan oleh
g (x k , u k ) = g ([s k , c k , h T
k ] T , u k )
=R·



(1 - r + r [u k ] 1 ),
s k ∈ {11, ..., 15}
(1 - r + r [u k ] 1 - l (s k - 5)),
s k ∈ {6, ..., 10}



1 - r + r [u k ] 1 - r ∑
s k
i = 1 [j k ]
6−i
−rβ d β ∑
s k
i = 1 i [j k ]
6−i


, s k ∈ {1, ..., 5}
(3)
di mana R menunjukkan pendapatan tahunan perusahaan, r adalah tarif pajak, l biaya
penutupan
(dibayar jika perusahaan memutuskan untuk memanfaatkan opsi tersebut jika ditawarkan),
β penalti pajak dan β d adalah faktor diskon untuk pembayaran yang cepat. Dalam
Persamaan. 3, itu
istilah teratas sesuai dengan penghargaan perusahaan jika tidak diaudit, sehingga
tergantung
[u k ] 1 , itu mungkin membayar semua kepada tidak ada pajak yang terutang. Dalam
jangka menengah, perusahaan menggunakan
opsi penutupan, sehingga membayar l selama bertahun-tahun karena tidak diaudit,
14
ACCEPTED MANUSCRIPT
hingga maksimal lima. Akhirnya, istilah bawah dalam Persamaan. 3 sesuai dengan

perusahaan yang diaudit, sehingga membayar kembali pajak yang harus dibayar
(berdasarkan riwayatnya
perilaku) dan hukuman yang sesuai, sesuai deskripsi kami sebelumnya.
Perusahaan diasumsikan bertindak dengan cara yang mementingkan diri sendiri dan
dengan demikian memilih kebijakannya
u k untuk memaksimalkan hadiah diskon yang diharapkan:
maks
u k
E ω k , ϵ k { ∞
∑
k=0
γ k U (g (x k , u k ))}
(4)
dimana γ ∈ (0,1) menunjukkan faktor diskonto.
Hal ini dapat ditunjukkan (dengan cara yang mirip dengan Goumagias et al. (2012)) bahwa
Bellman
persamaan yang solusinya memaksimalkan (4) setara dengan
J ∞
(i, q, h) = maks
u {U (g (i, q, h, u))
+γ
2
∑
t=1
15
∑
j=1
P qji ([u] 2 ) Pr (ϵ = t) J ∞
(j, t, Hh + [0 0 0 0 1] [u] 1 )} (5)
12
Halaman 14
MANUSCRIPT DITERIMA
MANUSCRIPT
DITERIMA
dimana, untuk kenyamanan, kami telah sedikit menyalahgunakan notasi tersebut dengan
menulis J ∞
(i, q, h)
bukannya J ∞ (x), dengan i ∈ S = {1, ..., 15}, q ∈ {1,2}, dan h ∈ [0,1] 5 .
15
ACCEPTED MANUSCRIPT
3.3. Tantangan dalam memecahkan strategi yang diharapkan perusahaan

Ada kesulitan yang signifikan dalam memecahkan Persamaan. 5 untuk optimal
imbalan perusahaan (dan kebijakan penghindaran pajak yang terkait), yang berasal dari
nuity elemen tertentu dalam vektor negara dan kontrol. Seperti yang telah kita lakukan
disebutkan, elemen pertama, [u k ] 1 ∈ [0,1], dari vektor kontrol u k menunjukkan pajak-
penghindaran sebagai bagian dari pendapatan tahunan perusahaan. Ini menyiratkan bahwa
u juga
sebagai x, berkelanjutan karena lima keputusan penghindaran pajak terakhir perusahaan
selalu
dimasukkan ke dalam negara bagian. Ini membuat Persamaan. 5 sulit untuk dihitung.
Seseorang dapat mencoba untuk menghindari masalah ini dengan mendiskritkan variabel
di
pertanyaan untuk membuat kedua negara dan vektor kontrol diskrit. Sebagai contoh,
sebagai gantinya kita dapat mempertimbangkan [u k ] 1 ∈ [0,0.01, ..., 0.99,1], dan
menganggap bahwa penghindaran pajak
terjadi dalam kelipatan 1%, yang tampaknya merupakan tingkat kekasaran yang wajar.
Namun, setelah diskritisasi ruang kontrol dan status, jumlah state-
pasangan kontrol, (x, u), tetap besar. Secara khusus, kita mendapatkan 15 × 2 × 101 5 ×
202
pasangan potensial (jumlah elemen dari vektor keadaan x k termasuk
semua kemungkinan kombinasi kontrol selama lima tahun terakhir, dikalikan jumlahnya
dari kemungkinan kontrol di u k ). Jumlah negara bagian seperti itu terlalu besar untuk DP
efektif dalam menyelesaikan persamaan Bellman stasioner melalui iterasi nilai, untuk
Misalnya, karena: i) "mengunjungi" setiap negara bagian untuk memperbarui fungsi nilai
terkait dengan Persamaan. 5 menjadi tidak layak dan ii) bahkan sulit untuk menyimpan file
fungsi J (x, u) (nilai penerapan keputusan u sedangkan pada state x, sebagai prekursor
untuk menghitung maksimum dalam persamaan di atas) dalam bentuk tabel, seperti yang
dilakukan orang
harus dilakukan jika Persamaan. 5 harus diselesaikan melalui iterasi nilai, misalnya.
Pekerjaan di Goumagias et al. (2012) menghindari kesulitan ini dengan sebagai-
menjumlahkan risiko-netralitas (λ = 0) atas nama perusahaan (dan dengan demikian
linieritas
13
Halaman 15
MANUSCRIPT DITERIMA
MANUSCRIPT
DITERIMA
16
ACCEPTED MANUSCRIPT
fungsi reward) dan berhasil menerapkan DP setelah menentukan bahwa [u k ] 1 harus

hanya mengambil bentuk "bang-bang" (menyembunyikan pendapatan sebanyak mungkin
atau tidak sama sekali
semua), yang mengarah ke pengurangan yang signifikan dalam jumlah pasangan kontrol-
negara. Di
kasus kita, bagaimanapun, fungsi cost-to-go (Persamaan 3) adalah non-linear, sehingga
kita harus melakukannya
pertimbangkan rentang penuh nilai kontrol, dan karenanya secara komputasi sulit
untuk menerapkan DP.
Salah satu cara untuk maju adalah dengan menggabungkan: i) metode perkiraan untuk
memperkirakan
fungsi nilai Jk dan ii) cara perkiraan untuk menyimpan nilai optimal
J k , berdasarkan kebijakan yang optimal. Untuk mengatasi yang pertama kita akan
menggunakan penguatan
learning - khususnya Q-learning, seperti yang dijelaskan dalam Sutton dan Barto (1998),
dimana
J k akan memainkan peran Q-fungsi Q (x k , u k ), sedangkan untuk yang terakhir, dalam
sebuah
Jaringan Syaraf Tiruan akan digunakan, seperti yang akan kita bahas sebentar lagi.
4. Membangun sebuah aproksimator: Deep Q-Learning
Kami bereksperimen dengan berbagai pilihan algoritma pembelajaran dan jaringan saraf
arsitektur kerja untuk keperluan pembelajaran dan menyimpan nilai optimal
fungsi yang diberikan di Bagian sebelumnya. Berikut ini kami jelaskan solusi kami.
tion, menggabungkan Q-learning dan Deep Neural Network, dan mendiskusikan beberapa
kesulitan yang terlibat dan bagaimana mereka dapat mengatasinya.
4.1. Q-learning
Q-learning adalah metode pembelajaran penguatan tanpa model (Sutton dan Barto,
1998), yang digunakan untuk menemukan kebijakan pemilihan-tindakan yang optimal
untuk setiap batasan tertentu
MDP. Dalam “bahasa” Sutton dan Barto (1998), seorang agen (dalam kasus kami the
perusahaan) mengamati keadaan saat ini x k ∈ X = S × C × [0,1] 5 pada setiap langkah
waktu diskrit
k, pilih tindakan u k ∈ U = [0,1] × {0,1} menurut kemungkinan stokastik
kebijakan π, memetakan status menjadi tindakan, mengamati sinyal reward U (g (x k ,
u k )) ∈ R,
14
Halaman 16
MANUSCRIPT DITERIMA
17
ACCEPTED MANUSCRIPT
MANUSCRIPT
DITERIMA
dan transisi ke keadaan baru x k + 1 . Tujuannya adalah untuk memaksimalkan ekspektasi
atas pengembalian diskon, seperti pada Persamaan. 4.
Secara singkat, pembelajaran-Q melibatkan pembaruan secara berurutan dari perkiraan
fungsi nilai tindakan, yaitu fungsi yang menghasilkan utilitas yang diharapkan dari
mengambil tindakan tertentu pada keadaan tertentu dan mengikuti kebijakan optimal
setelahnya.
Yang disebut fungsi-Q dari kebijakan π adalah Q π (x, u) = E {D k | x k = x, u k = u}, di
mana
D k =
∞
∑
i=0
γ i U (g (x k + i , u k + i )),
(6)
dan evolusi negara berlanjut di bawah kebijakan π. Akhirnya, tindakan optimal-
fungsi nilai Q ∗ (x, u) = max π Q π (x, u) yang proses pembelajarannya akan
ambang, mematuhi Persamaan Bellman. 4.
Untuk tujuan kami, dalam notasi Sec. 3, fungsi J yang kita cari
(5) hanyalah fungsi Q ∗ , setelah memaksimalkan u. Pilihan umum
untuk pemodelan fungsi-Q adalah tabel pemeta dan aproksimeter linier, di antaranya
orang lain. Namun, model ini mengalami kinerja yang buruk dan kemungkinan
skalabilitas.
lems, dan tidak mungkin menangani ruang keadaan dimensi tinggi yang terlibat dalam kita
kasus, seperti yang kita diskusikan di Sec. 3.3. Alternatif yang efisien dari yang disebutkan
di atas
model adalah jaringan saraf.
4.2. Deep Q-Networks (DQN)
Deep Q-learning (DQN) diperkenalkan oleh Mnih et al. (2015), dan menggunakan neu-
ral jaringan parametrized oleh θ untuk mewakili Q (x, u; θ), dimana Q berfungsi
ditambah dengan vektor parameter θ, biasanya terdiri dari bobot dan
bias dari beberapa lapisan jaringan. Jaringan saraf, dipandang sebagai
aproksimeter fungsi eral, dilatih "ujung ke ujung", dan dapat menangani secara efisien
masalah dimensi tinggi. Baru-baru ini, DQN melampaui kinerja manusia
dalam 49 game Atari yang berbeda (Mnih et al., 2015). Untuk tujuan kami, DQN akan
melakukannya
menerima sebagai masukan negara perusahaan x k dan harus menghasilkan keputusan yang
optimal,
18
ACCEPTED MANUSCRIPT
15
Halaman 17
MANUSCRIPT DITERIMA
MANUSCRIPT
DITERIMA
u k . Karena jaringan akan dilatih untuk menangkap kebijakan perusahaan yang optimal,
kami
terkadang akan menyebutnya sebagai "jaringan kebijakan".
DQN dilatih secara iteratif menggunakan penurunan gradien stokastik, hingga
gence. Ini dilakukan dengan meminimalkan, pada setiap iterasi i, fungsi kerugian dari
parameter jaringan, L i , yang dinyatakan sebagai
L i (θ i ) = E x, u, r, x {∆Q 2 }, dengan
(7)
∆Q = Y DQN - Q (x, u; θ i ), dan
(8)
Y DQN = U (g (x k , u k )) + γ maks
u
Q (x, u; θ −i ),
(9)
dan θ −i adalah salinan parameter jaringan yang “lebih lama”, seperti yang akan kami
jelaskan selanjutnya. Func-
Perkiraan tion menggunakan jaringan saraf dapat menjadi tidak stabil, dan kami
mengamati seperti itu
perilaku dalam eksperimen numerik kami, terutama setelah kami memperkenalkan sedetik
sumber ketidakpastian berupa ketersediaan penutupan. Mengikuti Mnih et al.
(2015), untuk menstabilkan proses kami menggunakan apa yang disebut "jaringan target",
yaitu salinan
dari DQN asli kami yang memiliki arsitektur yang sama tetapi set pa-
rameters, θ −i . Parameter jaringan target mewakili versi yang lebih lama
jaringan kebijakan dan diperbarui dengan kecepatan yang lebih lambat. Jadi, sementara
kebijakan
jaringan bertindak untuk menghasilkan input u yang akan mengarahkan perusahaan ke
keadaan berikutnya, yaitu
jaringan target yang diperbarui secara perlahan digunakan untuk menghitung DQN Y yang,
pada gilirannya, digunakan
untuk meningkatkan parameter jaringan kebijakan melalui penurunan gradien:
∇ θ i L i (θ i ) = E x, u, r, x {∆Q∇ θ i Q (x, u; θ i )}.
19
ACCEPTED MANUSCRIPT
(10)
Saat melatih DQN, kita harus memilih tindakan u untuk menggerakkan status di masing-
masing
pengulangan. Tindakan itu harus dipilih dari Q (x, u; θ i ) menggunakan kebijakan ϵ-
serakah
yang memilih u yang memaksimalkan Q dengan probabilitas 1 - ϵ, atau u acak dengan
probabilitas ϵ. Selain itu, DQN kami menggunakan apa yang disebut "replay pengalaman"
(Lin,
1993). Selama belajar, kami mempertahankan satu set pengalaman episodik (tuple itu
termasuk keadaan, tindakan yang diambil, keadaan yang dihasilkan dan penghargaan yang
diterima). Itu
16
Halaman 18
MANUSCRIPT DITERIMA
MANUSCRIPT
DITERIMA
DQN kemudian dilatih dengan mengambil sampel batch mini dari pengalaman
tersebut. Ini mempunyai
efek menstabilkan proses pembelajaran dan menghindari overfitting. Pengalaman
replay digunakan dengan sangat sukses oleh Mnih et al. (2015) dan seringkali termotivasi
sebagai teknik untuk mengurangi korelasi sampel, sekaligus memungkinkan penggunaan
kembali masa lalu
pengalaman untuk belajar. Selain itu, ini adalah alat yang berharga untuk meningkatkan
sampel
efisiensi dan juga dapat meningkatkan kinerja dengan margin yang signifikan, seperti yang
terjadi
kasus kami.
Modifikasi terakhir namun penting adalah penggunaan Double Q-learning, sebuah
teknologi
nique baru-baru ini diperkenalkan oleh van Hasselt et al. (2016a). Pembelajaran-Q ganda
untuk DQN (DDQN) mengurangi perkiraan nilai-Q yang terlalu tinggi dengan
mendekomposisi
operasi maks di jaringan target menjadi pemilihan tindakan dan evaluasi tindakan.
Jadi, alih-alih menggunakan perkiraan nilai-Q maksimum jaringan target di Persamaan. 9,
kami menggunakan nilai-Q jaringan target dari tindakan terbaik jaringan saat ini. Itu
Persamaan update DDQN sama dengan DQN, setelah mengganti target
Y DQN dalam Persamaan. 9 dengan
20
ACCEPTED MANUSCRIPT
Y DDQN = U (g (x k , u k )) + γQ (x, arg max

u
Q (x, u; θ i ); θ −i ).
(11)
Seluruh loop pelatihan DQN Ganda diberikan dalam kodesemu di Algoritme 1
di bawah.
4.3. Arsitektur DQN
Arsitektur jaringan kami terinspirasi oleh model Mnih et al. (2015).
Ruang aksi yang dijelaskan di Sec. 3 terdiri dari dua elemen aksi [u] 1 dan
[u] 2 . Tingkat penghindaran pajak perusahaan ditentukan oleh [u] 1 ∈ [0,1], didiskritkan
dalam
interval 1% menghasilkan satu set 101 tindakan. Konvensi ini biasa digunakan
untuk memanfaatkan stabilitas pembelajaran-Q di luar kebijakan dibandingkan dengan
dalam kebijakan
SARSA - λ, pendekatan aktor-kritik atau gradien kebijakan. Penggunaan perusahaan atas
opsi penutupan adalah [u] 2 ∈ {0,1}, dan jika penutupan tidak tersedia maka [u] 2 = 0.
17
Halaman 19
MANUSCRIPT DITERIMA
MANUSCRIPT
DITERIMA
Algoritma 1: DQN Ganda (van Hasselt et al., 2016a)
⊳ Inisialisasi pengalaman memutar ulang memori D, fungsi nilai aksi Q dengan
bobot acak θ dan set θ - = θ.
untuk episode = 1 hingga M lakukan
untuk k = 1 hingga K do
// Ambil tindakan
Pilih u k secara acak dengan probabilitas ϵ else arg max u Q (x k , u; θ)
Jalankan u k dan amati reward U (g (x k , u k )) dan nyatakan x t + 1
Simpan transisi (x k , u k , U (g (x k , u k )), x t + 1 ) di D
// Langkah pelatihan
Contoh minibatch (x j , u j , r j , x j + 1 ) dari D
Y DDQN = U (g (x j , u j )) + γQ (x, arg max u Q (x, u; θ i ); θ −i )
Lakukan langkah penurunan gradien ∇ θ (Y DDQN - Q (x j , u j ; θ)) 2
// Perbarui jaringan target
Setiap langkah C mengatur ulang jaringan target, yaitu setel θ - = θ
akhir
21
ACCEPTED MANUSCRIPT
akhir
Approximator kami (lihat Gbr. 1) adalah 4-layer multilayer perceptron (MLP) dan
mengambil sebagai masukan keadaan saat ini x k . Tiga lapisan pertama terdiri dari 256
saraf
rons, diikuti oleh dua lapisan linier paralel 101 dan 2 neuron, untuk komputasi
Q (x k , [u k ] 1 ) dan Q (x k , [u k ] 2 ), masing-masing. Jaringan memanfaatkan yang
diperbaiki
unit linier (ULT) fungsi transformasi f (x) = maks (0, x) antar lapisan.
Akhirnya, pengaturan kita membutuhkan DQN untuk menghasilkan dua elemen aksi
([u] 1 , [u] 2 ).
Untuk meningkatkan skalabilitas aproksimeter kami, dan setelah eksperimen numerik-
Oleh karena itu, kami memilih untuk menggunakan pembelajaran-Q independen untuk
mempelajari dua fungsi-Q yang berbeda
(satu untuk setiap komponen keputusan perusahaan, [u] 1 dan [u] 2 , seperti dalam
(Narasimhan
18
Halaman 20
MANUSCRIPT DITERIMA
MANUSCRIPT
DITERIMA
x k
Linear [256]
Linear [256]
Linear [256]
Q (,
)
x k
[ u ] k 1
Q (,
)
x k
[ u ]
k2
Linear [101]
Linear [2]
Gambar 1: Representasi skematis dari DQN kami. Kami menggunakan jaringan 4-lapisan yang mengambil
sebagai masukan
keadaan saat ini x k . Tiga lapisan pertama terdiri dari 256 neuron, diikuti oleh dua lapisan paralel
22
ACCEPTED MANUSCRIPT
dari 101 dan 2 neuron, untuk menghitung Q (x k , [u k ] 1 ) dan Q (x k , [u k ] 2 ), masing-masing.
dkk., 2015; Foerster et al., 2016). Dalam kasus ini, kerugian DQN dinyatakan sebagai
∆Q [u] 1 = U (g (x k , u k )) + γmaks [u k + 1 ] 1 Q (x k + 1 , [u k + 1 ] 1 ) - Q (x k , [u k ] 1 )
(12)
∆Q [u] 2 = U (g (x k , u k )) + γmaks [u k + 1 ] 2 Q (x k + 1 , [u k + 1 ] 2 ) - Q (x k , [u k ] 2 )
(13)
L i (θ i ) = E x, u, r, x {∆Q 2
[u] 1
+ ∆Q 2
[u] 2 }.
(14)
5. Mengevaluasi model: hasil dan diskusi
Seperti yang telah kami sebutkan di Pendahuluan, kami umumnya tertarik untuk menjadi
ing mampu mengevaluasi keputusan perusahaan (dengan asumsi bahwa itu bertindak
untuk kepentingan diri sendiri
cara) - dan utilitas maksimum yang diharapkan di bawah berbagai tingkat penghindaran
risiko,
sehingga menghasilkan alat yang dapat digunakan untuk memprediksi perilaku
perusahaan, menghitung
penerimaan pajak, dan untuk mengukur reaksi perusahaan terhadap skenario kebijakan
perpajakan di bawah
pertimbangan pemerintah. Kami juga tertarik untuk mengkarakterisasi
strategi perusahaan dengan menentukan, misalnya, apakah perusahaan tersebut diharapkan
untuk menggunakan tingkat penghindaran pajak yang konstan ([u] 1 ) di setiap negara
bagian (seperti di Goumagias
dkk. (2012)), menemukan koefisien penghindaran risiko perusahaan dengan perkiraan
empiris
teman tingkat penggelapan pajak, dan memeriksa apakah itu bermanfaat untuk
19
Halaman 21
MANUSCRIPT DITERIMA
MANUSCRIPT
DITERIMA
pemerintah untuk menawarkan opsi penutupan di salah satu pengaturan yang dibahas di
Pengantar.
5.1. Parameter model dan penyiapan Pelatihan
23
ACCEPTED MANUSCRIPT
Berbagai parameter pajak yang ada dalam model kami dipilih menggunakan Yunani
sebagai
studi kasus demi konkret, untuk memfasilitasi perbandingan dengan pekerjaan sebelumnya
(Goumagias et al., 2012), dan karena negara tersebut menghadirkan kasus yang menarik
karena diganggu oleh penggelapan pajak yang meluas (kita akan membahas perkiraan di
Bagian 5.4.1).
Secara khusus, tarif pajak dan pemeriksaan masing-masing adalah r = 0,24 dan p =
0,05; itu
undang-undang pembatasan untuk mengaudit laporan pajak masa lalu adalah 5
tahun; hukuman
untuk laba yang tidak dilaporkan adalah β = 0,24 (24% per tahun); potensi denda pajak
didiskon sebesar 40% jika dibayar segera (β d = 0,6); dan, akhirnya, biaya untuk
perusahaan yang menggunakan opsi penutupan - jika tersedia - adalah l = 0,023.
Melatih model berbasis DQN kami untuk mengoptimalkan perilaku perusahaan untuk satu
set
parameter (koefisien penghindaran risiko, probabilitas penutupan dan biaya, proba-
bility, koefisien penalti) diperlukan sekitar 2 hari pada CPU Intel R Xeon R X5690
dengan RAM 72GB. Kode sumber kami tersedia secara gratis di bawah li- sumber terbuka
cense di https://github.com/iassael/tax-evasion-dqn. Jaringan itu
dilatih pada 50.000 episode evolusi perusahaan, masing-masing berlangsung selama 250
langkah waktu.
Kinerja jaringan dievaluasi setiap 100 episode sebagai tayangan rata-rata.
hadiah terhitung dari episode tersebut. Kami mengikuti metodologi pelatihan yang
diusulkan
oleh Mnih et al. (2015), menggunakan Double Q-Learning (van Hasselt et al.,
2016a). Menjadi-
Karena x k ∈ [0,1] 21 , input ke jaringan "digeser" dengan mengurangi 0,5
dari semua elemen negara x k . Menggeser input agar tersebar secara merata
0 menghasilkan konvergensi yang lebih cepat 1 .
Contoh sederhana di mana jenis perpindahan ini meningkatkan pembelajaran adalah kasus one-hot encoded
1
input x, di mana bobot W, dan bias b, dari jaringan dapat "dipelajari" bahkan
20
Halaman 22
MANUSCRIPT DITERIMA
MANUSCRIPT
DITERIMA
Seperti biasa, tujuan pelatihan jaringan adalah untuk meminimalkan rata-rata kuadrat
24
ACCEPTED MANUSCRIPT
kesalahan perbedaan waktu. Jadi, gradien propagasi mundur yang dijelaskan di atas

secara signifikan dipengaruhi oleh skala penghargaan. Melihat bentuk file
fungsi utilitas penghindaran risiko U (·) di Persamaan. 2, ini menjadi masalah untuk nilai
input
mendekati 0, di mana U menyelam ke −∞. Untuk menstabilkan proses pelatihan secara
numerik,
nilai yang dikembalikan oleh U dipotong di bawah, sehingga selalu berada di [−1,0).
Artinya, jika argumen U kurang dari ϵ thresh , di mana U (ϵ thresh ) = −1,
argumen diganti dengan ϵ thresh . Evaluasi empiris kami menunjukkan penghargaan itu
pemotongan sangat penting untuk menangani skala imbalan non-linear yang curam. Itu
nilai tertentu -1 tidak kritis - lebih banyak nilai negatif bekerja dengan baik, juga
selama mereka "jauh" dari nilai utilitas yang biasanya dioperasikan perusahaan,
tetapi tidak terlalu negatif sehingga berakhir di bagian U yang sangat curam mendekati
nol.
Kebijakan eksplorasi ϵ-rakus kami menggunakan ϵ = 0,5 yang diturunkan secara linier
menjadi
ϵ = 0,1 dalam 5000 episode pertama. Ini menghasilkan kebijakan yang sangat eksploratif
di
awal yang dengan cepat menyatu ke yang lebih eksploitatif. Pelatihan
Proses mengambil keuntungan dari pengalaman masa lalu, seperti yang kami jelaskan di
atas (pengalaman
replay dengan mini-batch ukuran 100), dan jaringan target yang dijelaskan di Sec. 4.1
diperbarui setiap 10 episode. Parameter jaringan dioptimalkan menggunakan
Adam (Kingma dan Ba, 2014) dengan kecepatan pembelajaran 10 −4 .
Kami melanjutkan dengan mengevaluasi model kami terlebih dahulu dalam kasus
perusahaan yang netral risiko -
untuk tujuan perbandingan dengan pekerjaan sebelumnya. Setelah itu akan kita bahas
kasus perusahaan yang menghindari risiko dan akan mengeksplorasi perilakunya.
5.2. Perusahaan netral risiko: perbandingan dengan optimal yang diketahui.
Sebelum mencoba untuk menghitung perilaku yang diharapkan perusahaan yang
menghindari risiko, kami menilai
mengidolakan pendekatan kami terhadap solusi optimal yang diketahui untuk perusahaan
bebas risiko
ketika input awal adalah nol yaitu f (x) = ULT (Wx + b), sedangkan tanpa pergeseran hanya b
akan dipelajari ketika x = 0.
21
Halaman 23
MANUSCRIPT DITERIMA
25
ACCEPTED MANUSCRIPT
MANUSCRIPT
DITERIMA
dari Goumagias et al. (2012). Tab. 1 menunjukkan total potongan harga perusahaan
dalam empat kasus yang menarik, menurut seberapa sering opsi penutupan tersebut
ditawarkan setiap tahun: a) tidak pernah, b) dengan probabilitas 0,2, c) selalu, dan d)
berkala,
setiap 5 tahun.
Opsi Penutupan DQN Pemrograman Dinamis
Tidak pernah
3254.6
3270,66
p penutupan = 0,2
3307,9
3316.76
Selalu
3358.3
3357,01
5-periodik
3319.7
3335.75
Tabel 1: Total pendapatan yang didiskon untuk perusahaan risk-neutral, sebagaimana dihitung oleh model kami
vs. via
Pemrograman Dinamis. (Diadaptasi dari Goumagias et al. (2012)).
Pendekatan DQN kami secara inheren merupakan pendekatan yang mendekati. Namun
kami mencatat
bahwa pendapatan perusahaan yang kami hitung berbeda kurang dari 0,5% dari nilai
"sebenarnya"
dihitung melalui DP. Selain pendapatan perusahaan yang optimal, kebijakan perusahaan
juga optimal
identik dengan yang ditemukan di Goumagias et al. (2012) di masing-masing dari empat
kasus
diperiksa, yaitu, selalu optimal bagi perusahaan untuk menyembunyikan laba sebanyak
mungkin dan memanfaatkan opsi tersebut bila tersedia.
5.3. Perilaku perusahaan yang menghindari risiko - memeringkat kebijakan pajak sampel
Kami melakukan serangkaian proses yang dirancang untuk mengeksplorasi efek
penghindaran risiko
pada perilaku perusahaan, dengan menjaga parameter pajak tetap pada nilai
disebutkan di Sec. 5.1, dan memvariasikan koefisien penghindaran risiko perusahaan, λ
dari 0
26
ACCEPTED MANUSCRIPT
ke 7 di langkah 1, untuk masing-masing dari empat skenario yang terkait dengan

ketersediaan penutupan (tidak pernah, 20% dari waktu, selalu, setiap 5 tahun).
Perbedaan penting pertama dengan kasus risiko netral (Goumagias et al., 2012)
adalah bahwa derajat penghindaran pajak yang optimal, [u] 1 , untuk λ> 0 tidak
konstan. Itu adalah,
dalam setiap kasus, pendekatan berbasis DQN kami bertemu dengan state-dependent
(statis)
22
Halaman 24
MANUSCRIPT DITERIMA
MANUSCRIPT
DITERIMA
kebijakan yang mencapai utilitas rata-rata yang lebih tinggi daripada yang akan
dimungkinkan
menggunakan sembarang nilai konstanta untuk [u] 1 ∈ [0,1] (artinya nilai yang sama dari
[u] 1
akan digunakan terlepas dari di negara bagian mana kami berada). Lihat Tab. 2 untuk
perbandingan
dalam kasus di mana λ = 2,6 (kami telah memilih nilai ini karena memang demikian
minat khusus di Sec. 5.4.1 - hasil serupa berlaku untuk nilai λ yang berbeda).
Opsi Penutupan Maks. didiskon
Max. utilitas diskon
utilitas (rata-rata [u] 1 )
dengan konstanta [u] 1
Tidak pernah
-1,91474 · 10 −2
(0,29) -1,98007 · 10 −2
(0,21)
p penutupan = 0,2
-1,87780 · 10 −2
(0,40) -1,94671 · 10 −2
(0,31)
Selalu
-1,40147 · 10 −2
(1)
-1,40147 · 10 −2
(1)
27
ACCEPTED MANUSCRIPT
5-periodik
-1,86345 · 10 −2
(0.43) -1.89893 · 10 −2
(0,37)
Tabel 2: Utilitas yang diharapkan dengan diskon jangka panjang untuk perusahaan yang menghindari risiko (λ =
2.6): maksimum
dicapai vs. maksimum di bawah konstanta terbaik [u] 1 . Angka dalam tanda kurung menunjukkan
nilai rata-rata waktu [u] 1 mengarah ke utilitas maksimum yang diharapkan, dan konstanta optimum
[u] 1 , masing-masing.
Terkait empat kebijakan pajak yang dipertimbangkan, kami mengamati dari Tab. 2
bahwa - seperti dalam kasus netral risiko - perusahaan memperoleh diskon maksimum
yang lebih tinggi
utilitas ketika opsi penutupan ditawarkan lebih sering atau lebih dapat diprediksi.
Artinya, dari sudut pandang pemerintah, penerimaan pajak dipungut
paling tinggi jika opsi penutupan tidak pernah ditawarkan sama sekali. Kami akan
memiliki lebih banyak
katakan tentang ini di Sec. 5.6.
Mengenai penggunaan penutupan oleh perusahaan ([u] 2 ) kami menemukan bahwa, untuk
pajak-
parameter yang saat ini digunakan, jika opsi penutupan selalu ditawarkan maka
perusahaan
harus selalu memanfaatkannya (agar tidak pernah diaudit). Jika opsi
ditawarkan secara stokastik atau setiap lima tahun, maka optimal bagi perusahaan untuk
melakukannya
gunakan kecuali perusahaan baru saja diaudit (ini merupakan penyimpangan dari
kebijakan netral risiko yang optimal). Sehubungan dengan tingkat penghindaran pajak,
[u] 1 ,
23
Halaman 25
MANUSCRIPT DITERIMA
MANUSCRIPT
DITERIMA
Fakta bahwa kebijakan yang optimal tidak konstan membuat sulit untuk
mengkarakterisasikannya dalam a
Cara "kompak", terutama ketika penutupan ditawarkan secara stokastik atau berkala.
Kita akan membahas cara mengeksplorasi struktur [u] 1 nanti di Bagian ini.
5.4. Pengaruh penghindaran risiko terhadap penghindaran pajak
28
ACCEPTED MANUSCRIPT
Untuk mendapatkan wawasan tentang perilaku perusahaan kami memplot rata-rata [u] 1
di atas
masa hidup perusahaan terhadap koefisien penghindaran risiko perusahaan, λ. Gambar 2
menunjukkan tingkat di mana tingkat rata-rata penghindaran pajak ([u] 1 ) menurun
sebagai perusahaan
menjadi lebih menghindari risiko, untuk masing-masing dari empat skenario mengenai
ketersediaan
ity of closure dimana untuk setiap nilai λ terdapat 100 episode yang dieksekusi bersama
250 langkah waktu masing-masing. Perkiraan sifat pendekatan kami masuk
fakta bahwa dalam kasus di mana penutupan tidak pernah ditawarkan (Gbr. 2 - kiri atas),
di sana
adalah saat di mana tingkat rata-rata penghindaran pajak meningkat sebagai λ (risiko
perusahaan
keengganan) meningkat, meskipun kita mengharapkan yang sebaliknya terjadi. Namun,
ada
tren penurunan yang jelas dalam sebagian besar kasus menunjukkan itu sebagai
perusahaan
menjadi lebih menghindari risiko (λ lebih tinggi) perusahaan menjadi lebih "jujur" rata-
rata.
Perlu juga disebutkan bahwa tidak mudah untuk mendapatkan presisi numerik yang tinggi
dengan metode aproksimasi seperti milik kita ketika fungsi utilitas sangat tinggi
nonlinier (yaitu, dalam kasus kami, sangat curam mendekati nol di mana perusahaan akan
menemukan dirinya jika
ia harus membayar denda pada saat audit, dan relatif "datar" untuk nilai pendapatan
sebagai-
terkait dengan status non-audit). Satu solusi yang mungkin untuk mempelajari fungsi nilai
lebih dari “skala” imbalan yang berbeda ditawarkan di van Hasselt et al. (2016b); namun,
implementasinya rumit, oleh karena itu kami memilih pemotongan hadiah seperti yang
dibahas
di Sec. 5.1.
5.4.1. Menghitung penghindaran risiko perusahaan Yunani
Pada Gambar. 2 kami memasukkan titik data untuk λ = 2.6 pada sumbu horizontal. Nilai
itu
koefisien penghindaran risiko signifikan karena (lihat Gambar 2 kanan atas) mengarah
24
Halaman 26
MANUSCRIPT DITERIMA
29
ACCEPTED MANUSCRIPT
MANUSCRIPT
DITERIMA
0
2
2.6
3
4
5
6
7
0.0
0.2
0.4
0.6
0.8
1.0
E
[ hal
( u
1|
x
)]
0
2
2.6
3
4
5
6
7
0.0
0.2
0.4
0.6
0.8
1.0
E
[ hal
( u
1|
x
)]
p penutupan = 0
p penutupan = 0,2
0
2
2.6
3
4
5
6
7
0.0
30
ACCEPTED MANUSCRIPT
0.2
0.4
0.6
0.8
1.0
E
[ hal
( u
1|
x
)]
0
2
2.6
3
4
5
6
7
0.0
0.2
0.4
0.6
0.8
1.0
E
[ hal
( u
1|
x
)]
Selalu
5-periodik
Gambar 2: Rata-rata tingkat penghindaran pajak selama evolusi perusahaan (100 episode dari 250 langkah
waktu
setiap). Titik mewakili nilai rata-rata, batang menunjukkan ± satu deviasi standar.
untuk penghindaran pajak rata-rata 40% atas nama perusahaan. Itu diidentifikasi dengan
numerik
eksperimen, pada dasarnya menggunakan bisection pada λ untuk membuat rata-rata [u] 1 =
0,4.
Seperti yang telah kami sebutkan sebelumnya, tingkat 40% dilaporkan dalam literatur
sebagai
perkiraan tingkat penggelapan pajak di Yunani (Artavanis et al., 2016), dan pendekatan
kami
memungkinkan kita untuk memperkirakan koefisien penghindaran risiko dari rata-rata
perusahaan Yunani (atau
untuk memperkirakan ulang untuk semua atau sebagian perusahaan, seiring dengan
jadinya data empiris yang lebih baru
tersedia).
25
Halaman 27
MANUSCRIPT DITERIMA
31
ACCEPTED MANUSCRIPT
MANUSCRIPT
DITERIMA
5.5. Menjelajahi kebijakan optimal untuk perusahaan perwakilan (λ = 2.6)
Seperti yang telah kita lihat, kebijakan optimal perusahaan tidak konstan di tiga dari empat
skenario ketersediaan penutupan (pengecualian adalah kasus di mana penutupan selalu
tersedia, di mana yang terbaik adalah selalu menyembunyikan semua keuntungan). Karena
kerumitannya
masalah dan sejumlah besar negara (15 × 101 5 ), sulit untuk mewakili
atau bahkan memvisualisasikan kebijakan yang optimal dalam bentuk yang
kompak. Dengan demikian kami telah berusaha
untuk mendapatkan wawasan dengan memeriksa statistik [u] 1 dan [u] 2 dan dengan
menggunakan keputusan
pohon, serta berbagai proyeksi pemetaan status-ke-keputusan yang dikodekan dalam
DQN yang memiliki relevansi praktis karena mengungkapkan bagaimana penghindaran
pajak
tingkat terkait dengan i) status pajak perusahaan (yaitu, berapa tahun sejak terakhirnya
audit atau penutupan), dan ii) jumlah yang sebelumnya disembunyikan oleh perusahaan
tetapi
masih dalam batasan undang-undang dalam hal audit.
Gambar. 3 menunjukkan histogram frekuensi dari tingkat pajak optimal perusahaan-
menghindari lebih dari 25000 sampel pasangan keputusan negara (diperoleh dari DQN
terlatih kami,
lebih dari 100 episode di mana perusahaan diizinkan untuk berevolusi selama 250 langkah,
seperti sebelumnya
tersebut). Kami mengamati bahwa tidak ada variabilitas dalam kasus di mana penutupan
berada
selalu tersedia (perusahaan selalu menggunakan opsi penutupan dan menyembunyikan
sebanyak mungkin
untung mungkin). Dalam kasus di mana opsi ditawarkan secara stokastik atau
secara berkala ada variabilitas yang lebih signifikan dalam optimal [u] 1 (Gbr. 3, atas
baris, dan kanan bawah), meskipun kita mengamati bahwa himpunan nilai untuk
[u] 1 digunakan
oleh DQN jarang.
Untuk mendapatkan wawasan tentang bagaimana nilai-nilai yang diamati dalam histogram
bergantung
di negara bagian perusahaan, kami menggunakan pengklasifikasi pohon
keputusan. Menyesuaikan pohon keputusan ke
keluaran jaringan adalah pendekatan yang umum digunakan untuk menemukan pola dalam
32
ACCEPTED MANUSCRIPT
kebijakan yang dipelajari. Kami memilih pohon keputusan yang dangkal (kedalaman = 3)

yang sama
25000 keluaran [u] 1 , dengan ambang batas tinggi untuk pemisahan (10 −4 ). Kami
memelihara pohon itu
pengklasifikasi "naif" agar bisa mendapatkan intuisi tingkat tinggi pada keputusan
struktur kebijakan.
26
Halaman 28
MANUSCRIPT DITERIMA
MANUSCRIPT
DITERIMA
0.0
0.2
0.4
0.6
0.8
1.0
u 1
0.0
0.2
0.4
0.6
0.8
1.0
p
( u
1|
x
)
0.0
0.2
0.4
0.6
0.8
1.0
u 1
0.0
0.2
0.4
0.6
0.8
1.0
p
( u
1|
x
)
33
ACCEPTED MANUSCRIPT
p penutupan = 0
p penutupan = 0,2
0.0
0.2
0.4
0.6
0.8
1.0
u 1
0.0
0.2
0.4
0.6
0.8
1.0
p
( u
1|
x
)
0.0
0.2
0.4
0.6
0.8
1.0
u 1
0.0
0.2
0.4
0.6
0.8
1.0
p
( u
1|
x
)
Selalu
5-periodik
Gambar 3: Histogram tingkat penggelapan pajak perusahaan sepanjang masa hidupnya (100 episode, 250
langkah per episode).
27
Halaman 29
MANUSCRIPT DITERIMA
MANUSCRIPT
DITERIMA
34
ACCEPTED MANUSCRIPT
Gambar 4 mengilustrasikan pohon yang diperoleh untuk kasus penutupan p = 0 dan 0,2. Di

node pohon, biner s i adalah singkatan dari status pajak perusahaan dalam hal ke-i
elemen S (lihat deskripsi ruang negara mengikuti Persamaan 1), misalnya, s 5 = 0 artinya
status pajak perusahaan bukan elemen kelima dari S, sehingga perusahaan tidak sedang
diaudit selama lima tahun pajak terakhir; h i menunjukkan elemen ke-i dari pajak
perusahaan
vektor sejarah h, yaitu jumlah keuntungan yang disembunyikannya 5 − i + 1 tahun yang
lalu; c ∈ {0,1}
menunjukkan apakah penutupan tersedia untuk perusahaan atau tidak; dan sampel
menunjukkan
jumlah sampel (dari total 25000) yang diterapkan pada setiap kasus. Itu
s 5 = 0
sampel = 25.000
[u] 1 = 0,29
h 3 <= 0,38
sampel = 24130
[u] 1 = 0,265
Benar
jam 5 <= 0,735
sampel = 23252
[u] 1 = 0,267
sampel = 22369
[u] 1 = 0,269
sampel = 883
[u] 1 = 0,215
sampel = 878
[u] 1 = 0,21
sampel = 870
[u] 1 = 0,98
Salah
s 5 = 0
sampel = 25.000
[u] 1 = 0,396
dtk 10 = 0
sampel = 24625
[u] 1 = 0,39
c=0
sampel = 22884
[u] 1 = 0,382
sampel = 18330
[u] 1 = 0,367
sampel = 4554
[u] 1 = 0,442
sampel = 1741
[u] 1 = 0,502
sampel = 375
[u] 1 = 0,782
Salah
Benar
p penutupan = 0
p penutupan = 0,2
Gambar 4: Pohon keputusan yang menganalisis tingkat penggelapan pajak perusahaan [u] 1 (kiri: penutupan
tidak pernah tersedia-
mampu, kanan: penutupan tersedia dengan probabilitas 20%) menggunakan sampel dari 100 episode 250
langkah masing-masing. Data disesuaikan dengan pohon keputusan dangkal (kedalaman-3) dengan ambang
batas tinggi
untuk pemisahan, guna mengumpulkan informasi tentang struktur tingkat tinggi dari kebijakan tersebut.
pohon keputusan untuk p penutupan = 0 (Gbr. 4-kiri) menunjukkan bahwa jika penutupan tidak
pernah ditawarkan,
perusahaan memilih penghindaran pajak yang sangat tinggi ([u] 1 = 0,98, daun kanan atas
pohon)
hanya segera setelah audit yang "mencakup" 5 tahun terakhir. Sisa dari
waktu, perusahaan hampir selalu menyembunyikan 27% dari keuntungannya (daun kiri
bawah
pohon keputusan), dan setiap penyimpangan dari nilai tersebut bergantung terutama pada
sejarahnya
35
ACCEPTED MANUSCRIPT
h penggelapan pajak (misalnya, apakah 3 tahun yang lalu menyembunyikan lebih atau
kurang dari 38%
28
Halaman 30
MANUSCRIPT DITERIMA
MANUSCRIPT
DITERIMA
keuntungannya - lihat "anak" kiri dari simpul akar pohon).
Ketika p penutupan = 0,2 (Gambar 4-kanan), perusahaan kembali menggunakan tinggi [u] 1 =
0,78
segera setelah audit (jarang); untuk sebagian besar waktunya, ia menggunakan dua
penggelapan pajak
tingkat, [u] 1 = 0,44 atau [u] 1 = 0,37 tergantung pada apakah penutupan adalah (c = 1) atau
tidak
(c = 0) tersedia, masing-masing. Untuk skenario penutupan 5-periodik, pengklasifikasi
(tidak diperlihatkan) menunjukkan bahwa ketika perusahaan itu 3 atau 4 tahun lagi dari
berikutnya
penutupan, itu menggunakan mendekati rata-rata [u] 1 ≈ 0,38. Jika opsi penutupan kurang
dari 3
tahun lagi, dan perusahaan baru saja diaudit (<5 tahun yang lalu), lalu itu
penggelapan pajak naik menjadi [u] 1 ≈ 0,67.
Untuk mendapatkan informasi tambahan tentang struktur kebijakan DQN, kami melihat
untuk pola dalam keputusan penghindaran pajak berdasarkan i) status pajak perusahaan
(yaitu, apakah itu sedang diaudit, menggunakan opsi penutupan, atau dibiarkan
berkembang
1-5 tahun sejak audit terakhir atau penutupan, seperti yang dijelaskan di Sec. 3.2), dan ii)
kumu-
Penghindaran pajak asli "disimpan" dalam sejarah perusahaan (h k ) dalam undang-undang
5 tahun
batasan, ini mewakili semacam "jumlah berisiko" yang akan terjadi pada perusahaan
bertanggung jawab jika akan diaudit.
0
15
0,5
1
1
10 4
10
0.8
1.5
0.6
2
36
ACCEPTED MANUSCRIPT
5
0.4
0.2
0
15
2000
1
4000
10
0.8
6000
0.6
5
0.4
0.2
0
p penutupan = 0
p penutupan = 0,2
Gambar 5: Histogram yang menunjukkan distribusi 25.000 sampel keputusan penghindaran pajak ([u] 1 ) dari
100 episode masing-masing 250 langkah. Sumbu pada bidang horizontal sesuai dengan tingkat pajak
penghindaran (0 ke 1) dan status pajak perusahaan berkode integer (1-15, seperti dijelaskan dalam Sec. 3.2).
29
Halaman 31
MANUSCRIPT DITERIMA
MANUSCRIPT
DITERIMA
Gambar. 5 menunjukkan histogram keputusan perusahaan menurut tingkat penghindaran
pajak
([u] 1 ) dan status pajak perusahaan (ditampilkan sebagai bilangan bulat antara 1 dan 15
mewakili negara bagian di S, sesuai Sec. 3.2). Di histogram kiri, di mana ada penutupan
tidak pernah tersedia, kami mengamati bahwa perusahaan menghabiskan sebagian besar
waktunya dalam status pajak
15 (yang sesuai dengan perusahaan yang tidak diaudit selama 5 tahun atau lebih)
dan tingkat penghindaran pajaknya mendekati 0,28 (ini cocok dengan analisis pohon
keputusan
atas). Yang juga patut diperhatikan adalah fakta bahwa perusahaan secara konsisten
menggunakan [u] 1 = 1 ketika
status pajaknya adalah 5 (perusahaan yang diaudit untuk 5 pengajuan pajak terakhirnya).
Dalam histogram kanan Gambar 5, opsi penutupan tersedia dengan probabilitas
0,2, dan jika kita menjumlahkan sumbu status pajak kita akan mendapatkan
histogram kanan dari Gambar 3. Perusahaan umumnya menggunakan tingkat
penghindaran pajak yang lebih tinggi
([u] 1 ≈ 0,35 - 0,5). Penyebaran sampel yang lebih luas di atas sumbu status pajak
dibandingkan dengan kasus sebelumnya (penutupan tidak pernah tersedia) menunjukkan
bahwa perusahaan
37
ACCEPTED MANUSCRIPT
menggunakan opsi bila memungkinkan, dengan demikian "menghapus" riwayat

penggelapan pajak dan karenanya
menemukan dirinya lebih sering dalam status pajak 5-10 (sesuai dengan penutupan yang
digunakan
untuk 1-5 pengajuan pajak terakhir perusahaan) atau 11-15 (perusahaan tidak diaudit untuk
1-5
tahun yang lalu).
Selain mengelompokkan keputusan perusahaan berdasarkan status pajak, kami memeriksa
bagaimana perusahaan tersebut
berperilaku berdasarkan bagian negaranya, h k , yang berisi penggelapan pajak di masa lalu
keputusan (hingga lima) yang masih dalam undang-undang pembatasan (lihat Bagian 3.2).
Karena kita telah menghitung [u] 1 dengan langkah 0,01, dan karena strukturnya
h k sebagai perusahaan berkembang melalui Persamaan. 1, sulit untuk memvisualisasikan
kebijakan perusahaan
seluruh set itu. Akan tetapi, penting untuk mempertimbangkan jumlah elemen
dari h k (yang sebanding dengan jumlah total yang gagal diungkapkan perusahaan)
sebagai variabel proksi untuk jumlah yang berisiko jika perusahaan akan diaudit, dan
memeriksa bagaimana hal itu mempengaruhi penghindaran pajak oleh perusahaan. Kami
mengharapkan kebijakan yang "baik"
akan mengurangi penghindaran pajak ([u] 1 ) ketika jumlah itu meningkat, dan itulah
tepatnya
terjadi. Gambar. 6 menunjukkan histogram tingkat penggelapan pajak perusahaan dan
30
Halaman 32
MANUSCRIPT DITERIMA
MANUSCRIPT
DITERIMA
jumlah keputusan masa lalunya (hingga lima atau hingga terakhir kali diaudit atau
digunakan
opsi penutupan, mana saja yang lebih kecil). Di histogram kiri, di mana ada penutupan
tidak pernah tersedia, kami mengamati bahwa meskipun perusahaan menyembunyikan
sekitar 30% dari
keuntungannya sebagian besar, kadang-kadang memutuskan untuk tidak jujur sama sekali
[u] 1 pada 1, ketika jumlah yang berpotensi "terancam" untuk (∑h k ) kecil
(antara 0 dan 1.2) tetapi menjadi lebih jujur (dengan [u] 1 pada 0 atau 0.2) saat itu
jumlahnya lebih besar.
0
1000
38
ACCEPTED MANUSCRIPT
2
2000
1
3000
1.5
0.8
4000
1
0.6
0.4
0,5
0.2
0
0
1000
1.5
2000
1
3000
0.8
1
4000
0.6
5.000
0.4
0,5
0.2
0
0
p penutupan = 0
p penutupan = 0,2
Gambar 6: Histogram yang menunjukkan distribusi 25.000 sampel keputusan penghindaran pajak ([u] 1 )
dari 100 episode masing-masing 250 langkah. Sumbu pada bidang horizontal sesuai dengan tingkat
penghindaran pajak (0 hingga 1) dan jumlah keputusan penghindaran pajak di masa lalu, seperti yang dijelaskan
di
Detik. 3.2).
Dalam histogram kanan Gambar 6, opsi penutupan tersedia dengan probabilitas
0,2, dan ada kemunculan [u] 1 = 1 di seluruh rentang nilai untuk ∑h k .
Ini dijelaskan oleh fakta bahwa penggunaan closure memungkinkan perusahaan untuk
“menghapus
batu tulis bersih ”sehingga tidak terhalang oleh fakta bahwa ia telah mengakumulasi a
sejarah penggelapan pajak. Tren penurunan hadir di bar di dekat [u] 1 = 0,35
karena dengan menggunakan opsi penutupan bila memungkinkan (dengan demikian
memusatkan perhatian
h k ), lebih mungkin bagi perusahaan untuk menemukan dirinya sendiri dengan nilai yang
lebih rendah dari ∑h k .
31
Halaman 33
MANUSCRIPT DITERIMA
MANUSCRIPT
DITERIMA
39
ACCEPTED MANUSCRIPT
5.6. Implikasi kebijakan pajak

Dengan tujuan membuat rekomendasi kebijakan untuk perusahaan "kanonik"
(λ = 2.6) kami mengamati bahwa, berdasarkan hasil Sec. 5.3, lebih sering
opsi penutupan ditawarkan oleh pemerintah, semakin tinggi ekspektasi perusahaan
utilitas (lihat kolom kiri di Tab. 2), dan - terkait - semakin rendah jumlahnya
dari pendapatan pajak yang dikumpulkan. Dengan demikian, tampaknya pemerintah harus
menghindari penggunaan
jenis pengampunan pajak ini karena mendorong penghindaran pajak, dan sebaliknya
memperkuat
mekanisme audit.
Juga, analisis kebijakan DQN di Sec. 5.5 menyarankan cara-cara pajak
otoritas dapat mengalokasikan kembali sumber daya audit ke perusahaan yang berada di
negara bagian
terkait dengan penghindaran pajak tertinggi. Secara khusus, di bawah rezim saat ini,
sebagian besar sumber daya audit dikhususkan untuk perusahaan yang belum diaudit
selama lima
tahun dan dengan demikian memiliki pengajuan pajak masa lalu yang akan melampaui
undang-undang
batasan. Histogram dan analisis pohon keputusan dari kebijakan perusahaan menunjukkan
bahwa penghindaran pajak tinggi segera setelah audit, yang menunjukkan bahwa audit
tersebut
probabilitas harus didistribusikan lebih “merata” di S, untuk meningkatkan peluang
menangkap penggelapan pajak yang diaudit hanya satu tahun yang lalu.
Akhirnya, Gambar. 2 memberikan panduan untuk pengurangan penghindaran pajak yang
diharapkan sebagai
penghindaran risiko perusahaan meningkat. Tentu tidak mudah untuk mempengaruhi
secara langsung
sikap tegas untuk membuat mereka lebih menghindari risiko. Namun, hubungan menjadi-
tween average [u] 1 dan λ memberikan kesempatan untuk mengoptimalkan alokasi
sumber daya audit di antara berbagai kategori perusahaan (dikelompokkan, misalnya,
berdasarkan ukuran atau sektor kegiatan ekonomi), dengan lebih sedikit audit untuk
mereka yang sangat menghindari risiko,
lebih banyak untuk mereka yang tidak begitu, begitu koefisien penghindaran risiko
masing-masing kelompok adalah
diperkirakan (ini dapat dilakukan secara empiris dengan memeriksa pemeriksaan pajak
untuk mengukur pajak
penghindaran dalam setiap kelompok, dan memperkirakan λ kelompok itu seperti yang
kita lakukan di Sec. 5.4.1).
32
Halaman 34
MANUSCRIPT DITERIMA
40
ACCEPTED MANUSCRIPT
MANUSCRIPT
DITERIMA
6. Kesimpulan
Pekerjaan ini merupakan bagian dari program penelitian yang bertujuan untuk
menyediakan pemerintahan
dengan alat kuantitatif yang dapat digunakan untuk memerangi penggelapan pajak dan
memandu pajak
kebijakan. Prasyarat untuk desain kebijakan yang efektif adalah untuk dapat memahami
berdiri, dalam istilah kuantitatif, perilaku penghindar pajak. Menjelang akhir itu, kami
membahas masalah menentukan perilaku yang diharapkan dari kepentingan diri
perusahaan yang menghindari risiko yang bertujuan untuk memaksimalkan pendapatan
jangka panjangnya, dalam sistem perpajakan
yang fiturnya termasuk tarif pajak, audit acak, penalti untuk penggelapan pajak, dan
amnesti pajak sesekali. Pentingnya praktis dari masalah ini penting:
pemecahannya memungkinkan seseorang untuk memperkirakan pendapatan pajak, untuk
mengidentifikasi ukuran dan parameter
nilai-nilai yang membuat entitas yang mementingkan diri berperilaku lebih jujur, dan
untuk mengukur
efektivitas kebijakan pajak saat ini atau yang direncanakan.
Dinamika evolusi (stokastik) perusahaan, dikombinasikan dengan aturan
dari sistem pajak dan nonlinier dari fungsi penghargaan perusahaan (karena
fakta bahwa perusahaan umumnya menghindari risiko), menimbulkan optimal stokastik
masalah keputusan di mana persamaan Bellman terkait sulit untuk dipecahkan
menggunakan metode yang tepat. Untuk mengatasi tantangan itu, kami memanfaatkan
pengembangan terbaru
pilihan dalam pendekatan fungsi dan jaringan saraf dan membangun sebuah Deep
Q-learning Network (DQN) yang "mempelajari" kebijakan perusahaan yang optimal. Saraf
jaringan dilatih untuk "menyimpan" pendapatan jangka panjang perusahaan yang optimal,
mengingat a
negara awal dan keputusan. DQN digunakan untuk "mempelajari" perusahaan yang
optimal secara efisien
keputusan melalui simulasi evolusi negara perusahaan.
Pendekatan DQN pertama kali divalidasi dengan menyetel model kami ke khusus
kasus risiko netralitas dan membandingkan hasil yang diperoleh (kebijakan optimal
dan pendapatan perusahaan jangka panjang) dengan solusi tepat yang dihitung melalui DP
(Goumagias
et al., 2012). Kami kemudian menunjukkan bahwa kami dapat menghitung optimasi
perusahaan
41
ACCEPTED MANUSCRIPT
kebijakan mal dan penerimaan pajak yang sesuai untuk pemerintah dalam model "penuh"
33
Halaman 35
MANUSCRIPT DITERIMA
MANUSCRIPT
DITERIMA
yang mencakup penghindaran risiko (yaitu, non-linearitas dalam fungsi penghargaan) dan
opsi pengampunan pajak ("penutupan"). Kami mencatat bahwa, dalam kasus khusus kami,
Deep
Pembelajaran berhasil mendekati fungsi penghargaan perusahaan dan menemukan-
mengambil keputusan optimalnya di mana metode pendekatan lain gagal untuk bertemu
(kami bereksperimen secara ekstensif dengan Approximate Dynamic Programming, vari-
implementasi kami dari algoritma Q-learning dan SARSA, dan jaringan saraf
arsitektur yang berfungsi sebagai aproksimator fungsi).
Salah satu kontribusi yang dimungkinkan oleh pendekatan kami adalah bahwa itu dapat
digunakan
untuk menyimpulkan koefisien penghindaran risiko dari wajib pajak khas dari data
empiris,
dan kemudian mengevaluasi reaksi pembayar pajak tersebut dalam berbagai skenario
ketersediaan pengampunan pajak, atau perubahan parameter lainnya (misalnya,
peningkatan audit
tarif atau penalti). Menggunakan Yunani sebagai studi kasus, kami memperkirakan
penghindaran risiko
koefisien rata-rata perusahaan menjadi kurang lebih λ = 2.6, berdasarkan empiris
bukti yang menempatkan tingkat ekonomi "tersembunyi" Yunani kira-kira
40% (Artavanis et al., 2016). Kami juga membandingkan pendapatan pajak untuk
serangkaian
kebijakan yang digunakan di sana; hasil kami memberikan bukti yang menentang
penggunaan amnesti pajak
sebagai alat pengumpulan pendapatan pajak, bahkan dalam ekonomi dengan persisten dan
endemik
penghindaran pajak, karena kami ada hubungan negatif antara prediktabilitas (atau
memang ada) dari amnesti pajak dan penerimaan pajak. Meskipun kami telah
menggunakan
Yunani sebagai studi kasus di sini, sebagian demi konkret, diusulkan
Pendekatan ini dapat disesuaikan dengan skema perpajakan yang berbeda dan dapat
dengan mudah "disetel"
42
ACCEPTED MANUSCRIPT
mencerminkan nilai berbagai parameter pajak, seperti tarif pemeriksaan, yang diketahui
kepada pemerintah.
Peluang untuk pekerjaan lebih lanjut termasuk penggunaan sample-
algoritma aktor-kritikus yang efisien dengan replay pengalaman (Wang et al., 2017), yang
dapat memungkinkan pembelajaran yang stabil dalam ruang tindakan berkelanjutan (tanpa
harus
membuat keputusan perusahaan); penskalaan reward yang efisien, untuk menangani nilai
reward
melintasi banyak kali lipat mirip dengan van Hasselt et al. (2016b); dan
34
Halaman 36
MANUSCRIPT DITERIMA
MANUSCRIPT
DITERIMA
penggunaan Recurrent Q-Learning untuk kemungkinan mengurangi beberapa fitur status,
misalnya,
perilaku perusahaan dalam jendela lima tahun terakhir.
Sebuah studi komputasi yang menarik (dan masif) yang sekarang telah dilakukan
mungkin dalam terang karya ini, melibatkan pencatatan efek dari mengubah
berbagai parameter pajak pada perilaku perusahaan, sehingga seseorang dapat
menghitungnya
"derajat kejujuran" perusahaan sebagai fungsi parameter, dalam semangat
dari peta yang diberikan di Goumagias et al. (2012).
Akhirnya, kami juga membayangkan perluasan pekerjaan ini dengan model pembelajaran
itu
menggeneralisasi nilai-nilai yang berbeda dari tarif pajak r atau koefisien penghindaran
risiko
λ (daripada harus dilatih secara terpisah untuk nilai-nilai tertentu), atau itu juga
mengoptimalkan parameter model yang dipilih secara bersamaan dengan keputusan
perusahaan. Al-
meskipun beberapa parameter, seperti λ, secara umum dianggap eksogen dalam
pembentukannya
preferensi risiko perusahaan, mengoptimalkan orang lain, terutama tarif pajak dan denda
faktor akan menjadi kepentingan khusus untuk tujuan memaksimalkan pendapatan pajak.
Referensi
Allingham, MG dan Sandmo, A. (1972). Penghindaran pajak penghasilan: analisis teoritis. J. Publik
Economics, 1 (3-4): 323–338.
43
ACCEPTED MANUSCRIPT
Alm, J. dan Beck, W. (1990). Pengampunan pajak dan penerimaan pajak. Pub. Sirip. Wahyu, 18 (4): 433–453.
Alm, J. dan Rath, DM (1998). Analisis kebijakan pajak: pengenalan pengampunan pajak Rusia.
Laporan teknis, Universitas Negeri Georgia, Sekolah Kajian Kebijakan Andrew Young.
Andreoni, J., Erard, B., dan Feinstein, J. (1998). Pemenuhan pajak. J. Econ. Lit., 36 (2): 818–860.
Artavanis, N., Morse, A., dan Tsoutsoura, M. (2016). Mengukur penghindaran pajak penghasilan menggunakan
bank
kredit: Bukti dari yunani. The Quarterly Journal of Economics, 131 (2): 739-798.
Baldry, JC (1979). Penghindaran pajak dan pasokan tenaga kerja. Economics Letters, 3 (1): 53–56.
Bayer, RC, Oberhofer, H., dan Pemenang, H. (2015). Terjadinya amnesti pajak. J. Publik
Ekonomi, 125: 70–82.
Bertsekas, DP (1995). Pemrograman dinamis dan kontrol optimal, volume 1. Athena Scientific
Belmont, MA.
35
Halaman 37
MANUSCRIPT DITERIMA
MANUSCRIPT
DITERIMA
Bornstein, CT dan Rosenhead, J. (1990). Peran riset operasional di negara kurang berkembang
negara: Pendekatan kritis. Jurnal Riset Operasional Eropa, 49 (2): 156–178.
Clotfelter, CT (1983). Penghindaran pajak dan tarif pajak: Analisis pengembalian individu. Itu
Review of Economics and Statistics, halaman 363–373.
Cowell, FA (1981). Perpajakan dan pasokan tenaga kerja dengan aktivitas berisiko. Economica, 48 (192): 365–
379.
Crane, SE dan Nourzad, F. (1986). Inflasi dan penghindaran pajak: Analisis empiris. Itu
Review Ekonomi dan Statistik, halaman 217–223.
Das-Gupta, A. dan Mookherjee, D. (1995). Amnesti pajak di India: evaluasi empiris.
Universitas Boston, Institut Pembangunan Ekonomi.
Fleming, MH, Roman, J., dan Farrell, G. (2000). Ekonomi bayangan. Jurnal Internasional
tional Affairs, 53 (2): 387–409.
Foerster, JN, Assael, YM, de Freitas, N., dan Whiteson, S. (2016). Belajar berkomunikasi
dengan pembelajaran penguatan multi-agen yang mendalam. Di NIPS.
Gao, S. dan Xu, D. (2009). Pemodelan konseptual dan pengembangan agen cerdas-
sistem pendukung keputusan berbantuan untuk anti pencucian uang. Sistem Pakar dengan Aplikasi,
36 (2): 1493–1504.
Garrido, N. dan Mittone, L. (2012). Perilaku penggelapan pajak menggunakan automata terbatas: Eksperimen
di Chili dan Italia. Sistem Pakar dengan Aplikasi, 39 (5): 5584–5592.
Gosavi, A. (2004). Pembelajaran penguatan untuk biaya rata-rata jangka panjang. Jurnal Eropa
Riset Operasional, 155 (3): 654-674.
Goumagias, N., Hristu-Varsakelis, D., dan Saraidaris, A. (2012). Model pendukung keputusan untuk
pengumpulan pendapatan pajak di yunani. Sistem Pendukung Keputusan, 53 (1): 76–96.
Kementerian Keuangan Hellenic (2004a). Law N.3259 / 2004 (POL.1034 / 2005) (dalam bahasa Yunani).
Kementerian Keuangan Hellenic (2004b). Pasal 7, Par. 2,4, UU N.4337 / 2015 (POL.4337 / 2015) (dalam
Yunani).
Kementerian Keuangan Hellenic (2008). Law N.3697 / 2008 (POL.1130 / 2008) (dalam bahasa Yunani).
44
ACCEPTED MANUSCRIPT
Hokamp, S. dan Pickhardt, M. (2010). Penghindaran pajak penghasilan dalam masyarakat agen heterogen–
bukti dari model berbasis agen. Jurnal Ekonomi Internasional, 24 (4): 541–553.
Jaakkola, T., Jordan, MI, dan Singh, SP (1994). Pada konvergensi dari stokastik iteratif
algoritma pemrograman dinamis. Perhitungan saraf, 6 (6): 1185–1201.
Kingma, D. dan Ba, J. (2014). Adam: Sebuah metode untuk pengoptimalan stokastik. arXiv pracetak
arXiv: 1412,6980.
Krauss, C., Do, XA, dan Huck, N. (2017). Jaringan saraf dalam, pepohonan yang didorong gradien, ran-
36
Halaman 38
MANUSCRIPT DITERIMA
MANUSCRIPT
DITERIMA
hutan dom: Arbitrase statistik pada s & p 500. European Journal of Operational Research,
259 (2): 689–702.
Krizhevsky, A., Sutskever, I., dan Hinton, GE (2012). Klasifikasi Imagenet dengan deep
jaringan saraf konvolusional. Dalam Kemajuan dalam sistem pemrosesan informasi saraf, halaman
1097–1105.
LeCun, Y., Bengio, Y., dan Hinton, G. (2015). Pembelajaran mendalam. Nature, 521 (7553): 436–444.
Leung, MK, Xiong, HY, Lee, LJ, dan Frey, BJ (2014). Pembelajaran mendalam tentang jaringan-
kode penyambungan yang diatur. Bioinformatika, 30 (12): i121 – i129.
Lin, L. (1993). Pembelajaran Penguatan untuk Robot Menggunakan Neural Networks. Tesis PhD, Carnegie
Universitas Mellon, Pittsburgh.
Markellos, RN, Psychoyios, D., dan Schneider, F. (2016). Pasar utang negara dalam terang
ekonomi bayangan. European Journal of Operational Research, 252 (1): 220-231.
Martinez-Vazquez, J. dan Rider, M. (2005). Berbagai mode penghindaran pajak: teori dan bukti.
Jurnal Pajak Nasional, halaman 51–76.
Mikolov, T., Deoras, A., Povey, D., Burget, L., dan Cernock`y, J. (2011). Strategi untuk pelatihan
model bahasa jaringan saraf skala besar. Dalam Pengenalan Pidato Otomatis dan Under-
standing (ASRU), Lokakarya IEEE 2011 pada, halaman 196–201. IEEE.
Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, AA, Veness, J., Bellemare, MG, Graves, A.,
Riedmiller, M., Fidjeland, AK, Ostrovski, G., dkk. (2015). Kontrol tingkat manusia melalui
pembelajaran penguatan yang dalam. Nature, 518 (7540): 529–533.
Narasimhan, K., Kulkarni, T., dan Barzilay, R. (2015). Pemahaman bahasa untuk berbasis teks
game menggunakan pembelajaran penguatan mendalam. arXiv pracetak arXiv: 1506.08941.
Perozzi, B., Al-Rfou, R., dan Skiena, S. (2014). Deepwalk: Pembelajaran online tentang representasi sosial
tasi. Dalam Prosiding konferensi internasional ACM SIGKDD ke-20 tentang Pengetahuan
penemuan dan penggalian data, halaman 701–710. ACM.
Pickhardt, M. dan Seibold, G. (2014). Dinamika penghindaran pajak penghasilan: Bukti dari agen-
model ekonofisika berbasis. J. Economic Psychology, 40: 147–160.
Ronao, CA dan Cho, S.-B. (2016). Pengenalan aktivitas manusia dengan sensor smartphone menggunakan
jaringan saraf pembelajaran mendalam. Sistem Pakar dengan Aplikasi, 59: 235–244.
Ross, JM dan Buckwalter, ND (2013). Perencanaan pajak strategis untuk amnesti pajak negara
bukti dari pembatasan periode kelayakan. Tinjauan Keuangan Publik, 41 (3): 275–301.
Schmidhuber, J. (2015). Pembelajaran mendalam di jaringan saraf: Gambaran umum. Jaringan saraf,
45
ACCEPTED MANUSCRIPT
61: 85–117.
Singh, SP (1994). Algoritma pembelajaran penguatan untuk keputusan markovian pembayaran rata-rata
37
Halaman 39
MANUSCRIPT DITERIMA
MANUSCRIPT
DITERIMA
proses. Dalam AAAI, volume 94, halaman 700–705.
Sutton, RS dan Barto, AG (1998). Pembelajaran penguatan: Pengantar, volume 1. MIT
tekan Cambridge.
Tadepalli, P. dan Ok, D. (1996). Meningkatkan pembelajaran penguatan penghargaan rata-rata dengan
pendekatan
mengawinkan model domain dan fungsi nilai. Dalam ICML, halaman 471–479.
Tsitsiklis, JN (1994). Pendekatan stokastik asinkron dan pembelajaran-q. Pembelajaran Mesin-
ing, 16 (3): 185–202.
Tsitsiklis, JN dan Van Roy, B. (1996). Metode berbasis fitur untuk program dinamis berskala besar
tata bahasa. Pembelajaran Mesin, 22 (1-3): 59–94.
van Hasselt, H., Guez, A., dan Silver, D. (2016a). Pembelajaran penguatan mendalam dengan double
q-learning. Di AAAI.
van Hasselt, HP, Guez, A., Hessel, M., Mnih, V., dan Silver, D. (2016b). Nilai-nilai belajar
melintasi banyak kali lipat. Dalam NIPS, halaman 4287–4295.
Wang, Z., Bapst, V., Heess, N., Mnih, V., Munos, R., Kavukcuoglu, K., dan de Freitas, N.
(2017). Contoh kritikus aktor yang efisien dengan tayangan ulang pengalaman. Di ICLR.
Watkins, CJCH (1989). Belajar dari imbalan yang tertunda. Tesis PhD, University of Cam-
jembatan.
Wheeler, R. dan Narendra, K. (1986). Pembelajaran terdesentralisasi dalam rantai markov terbatas. IEEE
Transaksi pada Pengendalian Otomatis, 31 (6): 519–526.
Yitzhaki, S. (1974). Penghindaran pajak pendapatan: Sebuah analisis teoritis. J. Pub. Econ., 3 (2): 201–202.
38
Halaman 40
MANUSCRIPT DITERIMA
46
ACCEPTED MANUSCRIPT
MANUSCRIPT
DITERIMA
Lampiran A. Dinamika negara
Parameter persamaan keadaan dasar 1 seperti dalam Goumagias et al. (2012)
tetapi juga diberikan di sini untuk tujuan tinjauan:
A = 

0
0
H.





,H=











01000
00100
00010
00001
00000






47
ACCEPTED MANUSCRIPT





,B=
















00
... ...
00
01
















, n k = 

ω k
ϵ k
0 5 × 1
48
ACCEPTED MANUSCRIPT





.
(A.1)
Skalar ϵ k sesuai dengan keputusan pemerintah untuk menawarkan
opsi penutupan; ini terjadi dengan beberapa probabilitas tetap, p o , setiap tahun sehingga:
Pr (ϵ k = 1) = 

p o
1 - p o
jika i = 1
jika i = 2
(pilihan tersedia)
(opsi tidak tersedia).
(A.2)
Skalar ω k ∈ {1, ..., | S |} adalah variabel acak sesuai dengan transi-
Tions bahwa perusahaan menjalani di S (misalnya, audit pajak) tergantung pada keadaan
saat ini
dan keputusannya [u k ] 2 untuk menerima atau menolak opsi penutupan (jika ditawarkan):
Pr (ω κ = i | x k = [j, q, h T
k ] T , [u k ] 2 = m)
= P qij (m), i, j ∈ {1, ..., 15}, q ∈ {1,2} (A.3)
dimana kita menggunakan 1, ..., 15 sebagai label untuk keadaan di S. Untuk q dan u tetap,
bentuk P qij (m)
matriks Markov yang mengatur transisi perusahaan di S:
P qij (m) = 

[M tidak ] ij
[M a ] ij
[M d ] ij
jika q = 2,
∀m
jika q = 1, m = 1
jika q = 1, m = 2
(tidak ada pilihan)
(opsi diambil)
(opsi ditolak)
(A.4)
dan M no , M a , dan M d seperti dalam Goumagias et al. (2012) tetapi juga diberikan dalam
Lampiran B untuk tujuan tinjauan.
39
Halaman 41
49
ACCEPTED MANUSCRIPT
MANUSCRIPT DITERIMA
MANUSCRIPT
DITERIMA
Lampiran B. Matriks transisi Markov
M no =











0,0025 0,0025 0,0025 0,0025 0,0025
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0,0025 0,0025 0,0025 0,0025 0,0025 0,0025
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0,0025
50
ACCEPTED MANUSCRIPT
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0,0025 0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0,04 0,04
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
51
ACCEPTED MANUSCRIPT
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0.9975 0.9975 0.9975 0.9975 0.9975
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0.9975 0.9975 0.9975 0.9975 0.9975 0.9975
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0,9975
0
0
0
52
ACCEPTED MANUSCRIPT
0
0
0
0
0
0
0
0
0
0
0
0
0.9975 0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0,96 0,96











Tabel B.3: Probabilitas Transisi M no : Penutupan tidak tersedia
M a =











000000000000000
000000000000000
000000000000000
000000000000000
000000000000000
111111111110000
000000000001000
53
ACCEPTED MANUSCRIPT
000000000000100
000000000000010
000000000000001
000000000000000
000000000000000
000000000000000
000000000000000
000000000000000











Tabel B.4: Kemungkinan Transisi M a : Penutupan tersedia dan perusahaan memutuskan untuk
menggunakannya.
40
Halaman 42
MANUSCRIPT DITERIMA
MANUSCRIPT
DITERIMA
M d =











0,0075 0,0075 0,0075 0,0075 0,0075
0
0
54
ACCEPTED MANUSCRIPT
0
0
0
0
0
0
0
0
0
0
0
0
0
0,0075 0,0075 0,0075 0,0075 0,0075 0,0075
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0,0075
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0,0075 0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0.12 0.12
0
0
0
0
0
0
0
0
0
0
55
ACCEPTED MANUSCRIPT
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0.9925 0.9925 0.9925 0.9925 0.9925
0
0
0
0
0
56
ACCEPTED MANUSCRIPT
0
0
0
0
0
0
0
0
0
0
0.9925 0.9925 0.9925 0.9925 0.9925 0.9925
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0,9925
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0,9925 0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0.88 0.88








57
ACCEPTED MANUSCRIPT



Tabel B.5: Kemungkinan Transisi M d : Penutupan tersedia dan perusahaan memutuskan untuk tidak
menggunakannya.
41
58

Goumagias2018 (Indo)

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Goumagias2018 (Indo)

Diunggah oleh

Hak Cipta:

Format Tersedia

ACCEPTED MANUSCRIPT

Tyne, NE1 8ST, Inggris

Oxford, OX1 3QD, Inggris

tions melalui kombinasi Q-learning dan kemajuan terbaru di Deep Reinforcement

Alamat email: nikolaos.goumagias@northumbria.ac.uk (Nikolaos D. Goumagias),

pengetahuan, karya kami adalah pekerjaan pertama yang menerapkan pembelajaran

model parametrik Markov yang menggambarkan evolusi perusahaan rasional di dalamnya

Wheeler dan Narendra, 1986; Watkins, 1989) akan terbukti lebih menjanjikan

3.2. Perilaku perusahaan yang menghindari risiko dengan penutupan opsional

hingga maksimal lima. Akhirnya, istilah bawah dalam Persamaan. 3 sesuai dengan

3.3. Tantangan dalam memecahkan strategi yang diharapkan perusahaan

fungsi reward) dan berhasil menerapkan DP setelah menentukan bahwa [u k ] 1 harus

Y DDQN = U (g (x k , u k )) + γQ (x, arg max

kesalahan perbedaan waktu. Jadi, gradien propagasi mundur yang dijelaskan di atas

ke 7 di langkah 1, untuk masing-masing dari empat skenario yang terkait dengan

kebijakan yang dipelajari. Kami memilih pohon keputusan yang dangkal (kedalaman = 3)

Gambar 4 mengilustrasikan pohon yang diperoleh untuk kasus penutupan p = 0 dan 0,2. Di

menggunakan opsi bila memungkinkan, dengan demikian "menghapus" riwayat

5.6. Implikasi kebijakan pajak

Anda mungkin juga menyukai