BDCTemplate B

I.
JUDUL DAN ABSTRAK

1.1 Optimalisasi Analisis Dokumen Hukum Berbasis AI: Studi Kasus Kebijakan
Investasi di Indonesia dengan Menggunakan Deep Learning Transformers Model.
1.2 Abstrak
Penggunaan Deep Learning Transformers untuk menganalisis dokumen hukum dalam studi
kasus kebijakan investasi di Indonesia dapat membantu seorang ahli hukum untuk
melakukan sebuah ringkasan (Summary) dan juga keselarasan (Similarity) antar teks hukum.
Pada penelitian kali ini didapatkan beberapa hal penting, diantaranya adalah 48% dokumen
investasi terdapat di KEMENKEU, sejak tahun 2016 Indonesia lebih aktif memproduksi
produk hukum investasi. Dan juga tema besar yang paling kuat berkorelasi terkait Investasi
adalah adalah tema Jaminan Sosial, Investasi Pemerintah Daerah, dan Susunan Kementerian.
Kata kunci: Peraturan Perundangan, Hukum, Deep Learning, NLP, Transformers
1
II. PENDAHULUAN
2.1 Latar Belakang
Sebuah dokumen hukum memiliki keterkaitan yang erat dengan bahasa yang kompleks,
potensi multitafsir, dan juga penggunaannya yang sesuai konteks tertentu (Gonzalez, 2022,
pp. 10(2), 215-230), (Lee & Miller, 2021, pp. 35(4), 567-582). Oleh karena itu, diperlukan
analisis mendalam baik itu dalam tatanan implementasi maupun revisi. Menganalisis
sejumlah besar dokumen hukum merupakan tantangan besar bagi para ahli hukum. Apalagi
jumlah dokumen hukum yang ada terus meningkat (Williams et al., 2023, pp. 18(3), 420-
435). Peningkatan jumlah dokumen hukum tersebut terjadi baik secara konteks hierarkial
(vertical) yaitu peraturan perundang-undangan mulai tingkat Undang-Undang, Peraturan
Pemerintah, sampai dengan Peraturan Bupati / Walikota dan juga secara konteks horizontal
yaitu revisi dari waktu ke waktu sejumlah peraturan perundangan yang berlaku (Brown &
Miller, 2023, pp. 30(3), 420-435).
Para ahli hukum seringkali harus membaca dan memeriksa setiap dokumen hukum secara
cermat untuk menemukan informasi relevan, seperti mengidentifikasi entitas hukum,
mengeksplorasi argumen hukum, dan mengungkapkan rincian penting lainnya (Johnson &
Smith, 2022, pp. 18(3), 345-360). Jika hal tersebut masih dilakukan manual, sangat
memakan waktu dan melelahkan serta rentan terhadap kesalahan manusia (human-error)
(World Legal Forum, 2023).
Sebagian ahli hukum sudah menggunakan beberapa teknologi untuk membantu analisis
hukum, diantaranya adalah penggunaan Keyword Based-Search di dalam sebuah teknologi
database hukum. Hal tersebut merupakan sebuah metode dasar untuk analisis hukum
melibatkan penggunaan pencarian berbasis kata kunci di dalam sebuah database hukum
(Smith & Johnson, 2021, pp. 20(2), 215-230). Teknologi database tersebut pada dasarnya
adalah kumpulan semua data-data hukum yang ada lalu disimpan di dalam database
sehingga memiliki fasilitas searching, sorting, dan filtering berdasarkan keywords atau
kesamaan kata. Pendekatan ini memungkinkan para profesional hukum untuk menemukan
kasus, pasal, dan ayat yang terkandung di dalam sebuah undang-undang yang relevan
berdasarkan kata kunci tertentu. Namun, metode ini memiliki keterbatasan dalam hal akurasi
dan konteks, karena mungkin melewatkan dokumen-dokumen relevan yang tidak tepat
sesuai dengan kata kunci yang dimasukkan dan perbedaan konteks (Biswas, 2017, pp. 8(5),
1578-1582), (Hamdi & Mohd, 2019, pp. 9(3), 842-849).
2
Keterbatasan teknologi database bisa ditingkatkan dengan penerapan kecerdasan buatan
(AI) khususnya teknologi Natural Language Processing (NLP) dalam analisis dokumen
hukum (Wang & Liu, 2017, pp. 7(2), 156-175). AI memiliki potensi besar untuk mengatasi
berbagai masalah yang dihadapi. AI dalam sebuah NLP dapat mengenali dan memahami
teks hukum secara otomatis, mengolah dokumen dengan cepat dan efisien, serta membantu
ahli hukum mencari informasi dari kata kunci tertentu dengan akurasi yang tinggi. Selain
itu, AI dapat melakukan analisis sentimen hukum, mencari preseden (putusan pengadilan
sebelumnya) dan kasus serupa, serta menyajikan hasil analisis secara jelas dan intuitif
melalui visualisasi data (Lee & Garcia, 2021, pp. 22(2), 78-95). Dengan dukungan AI,
seorang ahli hukum dapat meningkatkan efisiensi, meningkatkan ketepatan analisis, dan
membuat kesimpulan hukum yang lebih akurat. Penerapan AI tidak bertujuan menggantikan
peran seorang ahli hukum, tetapi membantu mereka dalam mengatasi tantangan analisis
dokumen hukum yang semakin kompleks dan bertambah (Brown et al., 2019, pp. 28(4),
245-263),(Johnson et al., 2018, pp. 12(1), 34-50).
2.2 Rumusan Masalah

• Bagaimana menganalisis dokumen-dokumen hukum digital yang banyak, saling
terkait, dan berbeda konteks?
• Bagaimana meningkatkan akurasi hasil kesimpulan hukum atas sebuah terminologi
yang ingin dianalisis?
• Bagaimana menemukan preseden (putusan pengadilan sebelumnya) dan referensi
hukum, menemukan kesamaan dan ketidaksamaan pasal-pasal dan ayat-ayat tertentu
di dalam beberapa dokumen hukum yang berbeda pada media digital?
2.3 Tujuan
Tujuan dari penelitian ini, yaitu membantu seorang ahli hukum menganalisis suatu dokumen
hukum yang semakin banyak dan kompleks sehingga bisa meningkatkan efisiensi, akurasi,
dan kualitas analisis hukum yang dilakukan menggunakan algoritma NLP.
2.4 Manfaat
Manfaat yang dihasilkan dari penelitian ini adalah meningkatkan efisiensi dan akurasi atau
ketepatan dengan meminimalisir human-error (Gupta & Lehal, 2019, pp. 29(3), 305-341).
Manfaat dari penelitian ini secara spesifik pada dokumen-dokumen hukum yaitu
3
menemukan preseden (putusan pengadilan sebelumnya) dan referensi hukum, menemukan
kesamaan dan ketidaksamaan pasal-pasal dan ayat-ayat tertentu di dalam beberapa dokumen
hukum yang berbeda, menganalisis sentimen hukum untuk tema tertentu, menghemat biaya
dan sumber daya, dan juga membuka potensi produk inovasi hukum yang ada karena
kesimpulan yang dihasikan berasal dari sebuah proses yang lebih informasional dan
komprehensif (Hassanzadeh & Khoeini, 2019, pp. 30, 19-26), (Rajpurkar et al., 2020,
pp. 2383-2392), (Li et al., 2020, pp. 32(8), 1577-1590).
4
III. METODOLOGI
Pada penelitian ini, peneliti membuat urutan penelitian berdasarkan workflow / diagram alur
dibawah ini.
Gambar 1. Diagram Alur Penelitian
Domain Knowledge:
Seperti proyek Data Science atau AI lainnya, pemahaman terkait Domain Knowledge sangat
penting (Adhikari & Agrawal, 2019). Sebelum melakukan penelitian menggunakan NLP
di dalam data-data teks hukum, peneliti terlebih dahulu mencoba memahami peraturan
perundangan yang diterapkan di Indonesia (Lestari & Kurniawan, 2020, pp. 103-108). Hal
tersebut penting karena merupakan bagian dari pemahaman Domain Knowledge terkait
5
hukum dan dipergunakannya data dan metode tertentu yang tidak boleh keluar dari konteks
(Wijayanti & Pujiati, 2019, pp. 64-69).
Konversi PDF (Portable Document Format):

Dataset yang dipergunakan adalah dataset berupa PDF yang diberikan panitia Big Data
Challenge Kemendikbud yang bisa diakses di link berikut:
https://s.ub.ac.id/semifinalbdc2023dataset. Dataset tersebut berisi 111 dokumen hukum PDF
(Sebuah dokumen rusak, sehingga jumlah dokumen yang disepakati adalah 110) yang terdiri
dari empat tingkatan hukum yang berasal dari tahun 1996-2023. Sebelum menganalisa lebih
detail menggunakan metode NLP, peneliti mengekstrak terlebih dahulu bentuk format PDF
ke dalam sebuah text (Liao & Li, 2021, pp. 1-5), (Moura et al., 2020, pp. 39-46). Sehingga
yang pada awalnya terdapat 110 PDF dokumen menjadi 110 teks dokumen (konversi PDF
ke teks).
Ektraksi Text:
Selain cara manual, ada beberapa cara untuk mengektraksi bagian tertentu saja di dalam
sebuah teks yang Panjang. Metode substring, metode split, atau metode slicing (pemotongan
kata-kata) (Géron, 2019). Tetapi cara-cara tersebut sangat memakan waktu lama dan kurang
efektif jika struktur teks yang diekstraksi berbeda-beda, apalagi dokumen hukum dalam
bentuk teks yang berasal dari PDF sangat kompleks (Wang et al., 2020, pp. 2811-2821).
Dalam penelitian ini, peneliti membuat dua pendekatan ekstraksi, yaitu secara manual untuk
tema peraturan perundangan tersebut dan satu lagi menggunakan pendekatan model Deep
Learning Transformers.
Model tersebut merupakan model pendekatan NLP (Natural Language Processing), yaitu
model bahasa berbasis GPT (Generative Pre-trained Transformers) yang menggunakan
arsitektur Transformers (Raffel et al., 2019, pp. 21(140), 1-67), (Devlin et al., 2019, pp.
4171-4186). Arsitektur Transformers pertama kali diperkenalkan pada tahun 2017 oleh
Vaswani et al. dan telah menjadi revolusioner dalam bidang NLP. Kelebihan dari model
Transformers dibandingkan dengan model lain adalah pemahaman konteks. Transformers,
dengan menggunakan mekanisme Self-Attention, dapat mengenali hubungan konteks antara
kata-kata dalam kalimat atau teks. Hal ini memberikan kemampuan bagi model untuk
6
memahami struktur tata bahasa dan meningkatkan pemahaman atas makna dari teks yang
lebih panjang (Long Text) (Devlin et al., 2019, pp. 4171-4186).
Exploratory Data Analysis (EDA):

Exploratory Data Analysis (EDA) khususnya dalam NLP merupakan tahap awal dalam
proses analisis yang bertujuan untuk memahami dan menganalisis dataset sebelum
melakukan pemrosesan lanjutan dengan membangun model NLP (Ma & Sun, 2020, pp. 1-
11), (Kaur & Rana, 2020, pp. 27-31). Pada tahapan ini, peneliti akan melakukan berbagai
metode untuk menjelajahi dan menggali dataset yang ada. Contoh EDA di dalam studi kasus
NLP diantaranya adalah analisis jumlah kata, frekuensi kata, keselerasan kata kunci tertentu,
word cloud, stop word, dll.
Natural Language Processing (Transformers)

Natural Language Processing (NLP) merupakan cabang dari kecerdasan buatan yang
berfokus pada interaksi antara manusia dan bahasa (Natural Language) dengan tujuan untuk
memungkinkan komputer memahami, memproses, dan merespons bahasa manusia
(Jurafsky & Martin, 2020). Salah satu inovasi revolusioner dalam NLP adalah arsitektur
jaringan saraf yang dikenal sebagai Transformers (Vaswani & Kim, 2020).
Transformers berhasil mengatasi masalah dependensi jarak panjang dalam teks dengan
memperkenalkan Powerful-Attention. Mekanisme tersebut memungkinkan model untuk
mengenali dan memahami hubungan antara kata-kata dalam sebuah kalimat. Generative
Pre-trained Transformers (GPT) adalah salah satu contoh model yang menggunakan
arsitektur Transformers dalam NLP (Brown et al., 2020, pp. 1877-1901). GPT memiliki
kemampuan menghasilkan teks bahasa manusia yang sangat koheren dan mirip dengan gaya
penulisan manusia (Radford et al., 2019).
Secara keseluruhan, melalui penggunaan arsitektur Transformers seperti GPT, NLP dapat
mencapai tingkat kemajuan yang signifikan dalam meningkatkan pemahaman dan
pengolahan bahasa manusia oleh komputer. Pada penelitian ini, peneliti membuat beberapa
hasil analisis dengan bantuan model Transformers seperti Summary dan juga Similarity
atau keselarasan (Karimi et al., 2021, pp. 58(1), 102370).
7
IV. PEMBAHASAN
Domain Knowledge:
Di dalam peraturan perundang-undangan Indonesia ada sebuah hierarki atau tingkatan
peraturan hukum berdasarkan kekuatan hukumnya (Jayantini, 2018, pp. 3(4)), (Winarni,
2019, pp. 21(1)). Selain itu ada juga sebuah revisi atas undang-undang dengan tema yang
sama seperti terlihat pada Gambar. 2 dibawah ini di dalam tahun-tahun tertentu sesuai
dengan kebutuhan.
Gambar 2. Sistem Peraturan Perundangan

Dengan kata lain, ada 2 poin utama Domain Knowledge dalam memahami peraturan
perundang-undangan tersebut, yaitu:
• Peraturan di tingkatan yang lebih tinggi memiliki kekuatan yang lebih kuat daripada
peraturan di tingkatan yang lebih rendah (Sari, 2016, pp. 31(1)).
• Untuk peraturan yang setingkat, peraturan yang terbaru memiliki tingkatan yang
lebih tinggi dibandingkan dibandingkan tingkatan yang lebih lama (Rahman, 2020,
pp. 25(2).
Konversi PDF (Portable Document Format):

Pada tahap awal ini, peneliti mengkonversi bentuk dokumen hukum tersebut ke dalam
bentuk teks. Dataset berupa PDF diekstrasi menggunakan Pyhon Library bernama
PyPDF2. PyPDF2 adalah library berbasis Python yang gratis dan bersifat open-source
8
(Konrad & Gouarin, 2019, pp. 4(35)). Library ini dapat membagi, menggabungkan,
memotong, dan mengubah halaman-halaman dari file PDF. Selain itu, PyPDF2 juga dapat
menambahkan data kustom, opsi tampilan, dan kata sandi pada file PDF. Dan yang
terpenting PyPDF2 juga mampu mengambil teks dan metadata dari file berbentuk PDF lalu
mengubahnya menjadi sebuah teks. Sebagian dari code (Snippets) PyPDF2 bisa dilihat di
bawah ini:
Gambar 3. Potongan Code PyPDF2
Gambar 4. Hasil konversi dari PDF ke bentuk teks
9
Konversi PDF menjadi sebuah teks tersebut menghasilkan dokumen teks yang terdiri dari
110 peraturan perundang-undangan terkait dengan investasi.
Gambar 5. Kumpulan Konversi Teks
Ektraksi Text:
Struktur perundang-undangan yang tidak sama baik itu secara tema, bab, pasal, dan ayat
menjadikan file teks yang ada sangat sulit untuk diekstraksi (Doe & Smith, 2021, pp. 25(2)).
Jika menggunakan Regular Expression (Regex) pun akan sangat sulit karena perbedaan
struktur tersebut. Oleh karena itu, peneliti mengubah struktur teks tersebut menjadi sebuah
Draft Dataframe (rows dan column). Dengan menggunakan struktur data dataframe,
analisis teks yang tidak semua strukturnya sama tersebut akan mempunyai struktur yang
sama karena telah melalui proses pengubahan. Pada penelitian ini, peneliti melakukan dua
buah pendekatan yang saling melengkapi terkait pembuatan Dataframe atau ektraksi data
dari PDF. Sebut saja bentuk Dataframe 1 dan juga bentuk Dataframe 2 yang bisa dilihat
pada gambar dibawah ini.
Gambar 6. Struktur Dataframe 1 (Manual)

10
Gambar 7. Struktur Dataframe 2 (Transformers Model)
Pada struktur Dataframe 1, feature yang dibutuhkan lebih fokus kepada tema besar dari
peraturan perundang-undangan. Sedangkan struktur Dataframe 2 adalah sebuah struktur
lebih detail per poin utama dalam setiap bab yang dalam hal ini peneliti menyamakan hal
tersebut sebagai poin dari sebuah ayat-ayat. Pembuatan struktur Dataframe 1 dibuat manual
karena tidak terlalu banyak, sedangkan pembuatan Dataframe 2 dibuat menggunakan model
Deep Learning Transformers.
Untuk membuat perubahan dari data teks menjadi struktur Dataframe 2 seperti gambar di
atas. Peneliti langsung menggunakan model Transformers (Vaswani et al., 2017),
(Radford et al., 2019). Struktur bab, pasal, dan ayat yang ada pada semua dokumen
sangatlah berbeda, sehingga penulis menggunakan model Transformers untuk merangkum
kata kunci (keypoint) di dalam setiap teks dokumen. Hal ini dilakukan untuk menghemat
waktu dan juga efisiensi di dalam proses pembuatan Dataframe yang pada akan diproses
pada tahap selanjutnya. Snippets Transformers (potongan code) model bisa dilihat dibawah
ini.
Gambar 8. Potongan Kode Transformers

Salah satu kelebihan Transformers juga mendukung Bahasa Indonesia dalam pemodelan
yang dilakukan. Sehingga peneliti tidak perlu melakukan translate. Selain itu, peneliti juga
menggunakan indek kekuatan hierarki untuk memudahkan analisis. Hierarki peraturan
11
perundang-undangan tersebut dibuatkan indeks 1 sampai dengan 5. Dimana level tertinggi
yaitu UUD 1945 peneliti tambahkan ke dalam Dataset (sumber data ekternal).
1:= Level Tertinggi (UUD 1945)

2:= UU dan Peraturan Pengganti Undang-Undang (UU dan PERPU)
3:= Peraturan Pemerintah (PP)
4:= Peraturan Presiden (PERPRES)
5:= Peraturan Menteri (PERMEN)
Exploratory Data Analysis (EDA):

EDA yang dilakukan pada penelitian ini adalah sebuah EDA khusus untuk studi kasus
Natural Language Processing (NLP), bukan sebuah numerik. EDA pada NLP diantaranya
adalah kata yang sering muncul dan grafik kata terbanyak (Word Cloud) (Nainwal et al.,
2023, pp. 43-47). Peneliti menggunakan Software Data Visualisasi Tableau untuk
melakukan proses visualisasi yang diberikan pada beberapa gambar visual. Alasan
penggunaan Tableau tersebut dikarenakan Tableau mempunyai beberapa keunggulan
dinataranya adalah mudah digunakan, hasil visual yang bagus, dan performa yang tinggi.
Beberapa EDA yang dilakukan pada penelitian ini bisa dilihat pada gambar di bawah ini:
Gambar. 9 Statistik Dokumen
12
Gambar 10. Statistik Dokumen Per Level Peraturan
Gambar 11. Statistik Dokumen Per Tahun dan Per Level Peraturan
Dari Gambar 9, 10, dan 11. Bisa ditarik sebuah kesimpulan sebagai berikut:
• Peraturan Pemerintah dan Peraturan Presiden mempunyai jumlah dokumen hukum
terbanyak terkait dengan investasi (level 3 dan level 4)
13
• Dari seluruh Dataset Peraturan Menteri, Kementerian Keuangan mempunyai
dokumen hukum terbanyak terkait investasi dari level yang sama (Peraturan Menteri)
di seluruh kementerian (48%).
• Sejak tahun 2016, level 2, 3, 4, dan 5 (UU dan PERPU, PP, PERPRES, PERMEN)
mulai memproduksi dokumen peraturan terkait investasi dengan sangat intens tiap
tahun. Hal ini ditunjukan oleh tidak adanya tahun yang absen dari dokumen hukum
yang bertema investasi. Artinya sejak tahun 2016, banyak peraturan terkait investasi
yang bermunculan.
EDA Word Frequency Analysis (Word Cloud dan Statistik Kata)

Di dalam penelitian ini, peneliti menggunakan dua buah pendekatan di dalam pembuatan
Dataframe, yang pertama adalah menggunakan pendekatan manual dan yang kedua
menggunakan pendekatan Model Transformer untuk merangkum keypoint atau poin utama
yang dalam hal ini peneliti menganggap hal tersebut adalah sebuah ayat di dalam seluruh
dokumen hukum (Yang et al., 2019). Sebelum menggunakan pemodelan tersebut, peneliti
mencoba memahami terlebih dahulu hasil dari Dataframe 1 (Manual) dan hasil dari
Dataframe 2 (Transformer Model). Perbedaan yang signifikan terkait kedua Dataframe
tersebut adalah Level of Detail (LOD) dimana Dataframe 1 memuat level detail tema besar
sedangkan Dataframe 2 memuat data yang lebih mendetail dan dalam hal ini yaitu ayat-ayat
di dalam suluruh dokumen (dianggap hasil ringkasan yang dilakukan oleh Transformer
tersebut adalah ayat).
Perhatikan Word Cloud yang dihasilkan dibawah ini yaitu di dalam pendekatan Dataframe
1 (Pendekatan Manual, Level of Detail Tema dan Judul) dan Dataframe 2 (Pendekatan
Transformer Model, Level of Detail Keypoint yang dalam hal ini adalah ayat-ayat.):
14
Gambar 12. Word Cloud Dataframe 1 (Kiri) dan Dataframe 2 (Kanan) Level UUD 1945
(Level 1)
Gambar 13. Word Cloud Dataframe 1(Kiri) dan Dataframe 2 (Kanan) Level UU dan
PERPU (Level 2)
Gambar 14. Word Cloud Dataframe 1 (Kiri) dan Dataframe 2 (Kanan) Level PP (Level 3)
Gambar 15. Dataframe 1 Level PERPRES (Level 4)
15
Gambar 16. Dataframe 1 Level PERMEN (Level 5)
Setelah Word Cloud, mari kita perhatikan juga statistik kata-kata yang sering muncul di
dalam Dataframe 1 maupun di dalam Dataframe 2 berurutan dari level paling tinggi (level
1: UUD) sampai dengan level terendah (PERMEN) di dalam dataset.
Gambar 17. Kata Sering Muncul Level 1-Level 5
Dari visualisasi dan tabel di atas, bisa ditarik beberapa kesimpulan lain sebagai berikut:
• Di dalam level UUD 1945 (level 1), kata PRESIDEN memiliki dominasi yang
utama di dalam penyelenggaraan sebuah negara.
• Di dalam level UU dan PERPU, hal terkait dengan sebuah kata NEGARA
didominasi oleh kata terkait dengan ANGGARAN, KEUANGAN, dan DANA.
• Kata INVESTASI baru muncul di dalam level PP bersamaan dengan kata
PERUSAHAAN dan MODAL.
• Level PERPRES juga muncul kata INVESTASI dan PENANAMAN MODAL
16
• INVESTASI, KEUANGAN, dan PEMERINTAH juga muncul lagi di level
PERMEN
Dengan kata lain, bisa disimpulkan bahwa seorang presiden dapat menentukan arah
kebijakan investasi yang dihitung dan diregulasi di tingkat selanjutnya yaitu UU. Di dalam
tatanan teknis, regulasi tersebut terlihat mulai dari PP sampai dengan level PERMEN
sesuai dengan hierarki dan waktu yang berlaku (direvisi jika diperlukan).
Penggunaan Transformer Untuk Mendapatkan Summary (Ringkasan):

Summarisasi adalah tugas untuk menghasilkan versi yang lebih singkat dari sebuah dokumen
sambil mempertahankan informasi pentingnya. Penggunaan Model Transformer di dalam
menjalankan fungsi rangkuman atau summary yang dilakukan peneliti pada prinsipnya
adalah menggunakan pemodelan Deep Learning Transformers (Yang et al., 2019).
Potongan code bisa dilihat dibawah ini.
Gambar 18. Potongan Kode Transformers

Hasil ringkasan tersebut lalu disimpan di dalam sebuah Dataframe 2 yang merupakan versi
rangkuman dari teks terkait hukum yang sangat Panjang (Long Text). Hasil teks tersebut
bisa dilihat dibawah ini.
Gambar 19. Keypoint Hasil dari Transformers

Secara teknikal, keypoint yang didapatkan dari seluruh dokumen adalah sebuah ayat-ayat
yang terkandung di dalam pasal dan bab tertentu.
17
Penggunaan Transformers Untuk Similarity / Keselarasan:
Deep Learning Transformers Model sangat efektif untuk diterapkan ke dalam NLP. Hal
tersebut dikarenakan kemampuannya untuk menangkap sebuah informasi secara
kontekstual. Salah satu penggunaan Transformers bisa dipergunakan untuk melihat
kesamaan atau keselarasan (Similarity) di dalam sebuah teks yang sangat banyak dan
panjang (Long Text).
Gambar 20. Potongan Code Transformers Model

Transformers model yang dipergunakan diimplementasikan ke dalam Dataset 1 (tema).
Untuk hasilnya bisa terlihat seperti berikut.
Gambar 21. Similarity Untuk Tema per Dokumen
Pada penelitian ini, peneliti mencoba menggunakan parameter Max dan Min untuk melihat
hubungan yang ada antar dokumen. Artinya dokumen dengan nilai Score Max tertinggi
merupakan sebuah dokumen dengan tingkat hubungan atau korelasi terkuat dan sebaliknya.
Peneliti mengambil contoh 4 hubungan terkuat keselarasan di dalam tema tertentu
keseluruhan dokumen yang ada. Keempat tema terkuat tersebut yang berhubungan satu sama
lain adalah tema 1. Investasi Pemerintah, 2. Jaminan Sosial Kesehatan dan
Ketenagakerjaan, 3. Investasi Pemerintah Daerah, 4. Susunan Organisasi dan Tugas
Menteri.
18
1. Nilai keselarasan terkuat dengan tema Investasi Pemerintah dan di level 3 yaitu PP
(Peraturan Pemerintah)
Gambar. 22. Keselarahan Terkuat Tema Investasi Pemerintah

2. Nilai keselarasan kedua terkuat dengan tema Jaminan Sosial Kesehatan dan
Ketenagakerjaan di level 3 yaitu PP (Peraturan Pemerintah)
Gambar 23. Keselarasan Kedua Terkuat Tema Jaminan Sosial
3. Nilai keselarasan ketiga terkuat dengan tema Investasi Pemerintah Daerah (level 2
dan level 5)
19
Gambar. 24 Keselarasan Ketiga Terkuat Tema Investasi Daerah
4. Nilai keselarasan keempat terkuat dengan tema Susunan Organisasi dan Tugas
Menteri (level 4 dan level 5).
Gambar 25. Keselarasan Keempat Terkuat Tema Susunan Organisasi dan Tugas
Menteri (level 4 dan level 5)
Dari Gambar 22-25 terlihat bahwa ada peraturan tertentu yang memiliki hubungan yang
kuat. Karena hubungan tersebut termasuk ke dalam tema yang sama, maka kembali lagi
kepada Domain Knowledge pembacaan peraturan perundang-undangan, yaitu:
• Peraturan di tingkatan yang lebih tinggi memiliki kekuatan yang lebih kuat daripada
peraturan di tingkatan yang lebih rendah.
• Untuk peraturan yang setingkat, peraturan yang terbaru memiliki tingkatan yang
lebih tinggi dibandingkan dibandingkan tingkatan yang lebih lama.
Analisis di atas merupakan analisis pada Level of Detail (LOD) sebuah tema. Selanjutnya
dari LOD tema tersebut, peneliti kembangkan menjadi analisis per ayat yang dalam hal ini
20
peneliti menyebutnya keypoint. Peneliti mengambil contoh tema Investasi Daerah dan
Susunan Organisasi dan Tugas Menteri. Alasan pengambilan kedua tersebut karena selain
memiliki hubungan yang kuat di level tema juga ayat yang ada tidak terlalu besar, yaitu:
1. 36 ayat
2. 5 ayat
3. 175 ayat
Total: 308 Ayat
Jika menggunakan Transformers, maka terdapat 94864 ayat yang harus dianalisis
keselarasannya. Oleh karena itu, peneliti menggunakan Teknik Random Sampling dengan
pendekatan rumus Slovin (Mweshi & Sakyi, 2020, pp. 8(11).), (Ismail et al., 2022, pp.6(9),
88-92). Dari 308 Ayat diambil sampel sebanyak 54 ayat sebagai sampel. Penggunaan rumus
Slovin tersebut mempunyai Error 10% dan juga Confidence Interval 90%.
Gambar 26. Keselarasan Ayat

Dokumen tersebut merupakan sebuah indeks ayat yang terdapat di dalam kedua hubungan
korelasi tema terkuat yaitu, Investasi Pemerintah Daerah dan Susunan Organisasi dan
Tugas Menteri. Peneliti menggunakan model Transformers untuk melihat keselarasan
antar ayat di dalam keempat tema tersebut. Hasil analisis keselarasan tersebut bisa dilihat
dibawah ini.
21
Gambar 27. Similarity Antar Ayat
Berikut merupakan visualisi dari sampel yang diambil terkait dengan keselarasan ayat-ayat
di dalam kedua tema yang berhubungan kuat yaitu tema Investasi Pemerintah Daerah dan
Susunan Organisasi dan Tugas Menteri.
Gambar 28. Visualisasi Similarity

Terlihat dari visualisasi pada Gambar 28 bahwa UU 33:2004 menjadi peraturan tertinggi
yang selaras dengan PERPRES 176:2000 juga didukung oleh PERMEN 9:2001 yang
berlaku pada tahun 2001 dan direvisi oleh PERMEN 52:2012. Sedangkan untuk ayat-ayat
yang memiliki keselarasan tinggi adalah Ayat 1, Ayat 31, Ayat 2, Ayat 23, Ayat 3, dan ayat
10 pada masing-masing keempat dokumen dengan nilai keselarasan diatas 99%.
22
Gambar 29. Similarity Ayat
23
V. PENUTUP
5.1 Kesimpulan
Hasil dari EDA dan pemodelan peringkasan (Summary) juga keselarasan (Similarity) di
dalam penelitian ini berhasil dibuat dengan adanya sebuah nilai kemiripan di dalam persen
(%). Metode-metode tersebut dapat dipergunakan untuk menarik kesimpulan di dalam
dokumen hukum dengan kelebihannya yaitu pemahaman akan konteks dengan
menggunakan pemodelan Deep Learning Transformer.
5.2 Saran
Di dalam penelitian ini masih ada beberapa hal yang bisa ditingkatkan diantaranya adalah
penggunan filter khusus untuk kata-kata Bahasa Indonesia seperti kata penghubung yang,
pun, oleh karena itu, dll. Hal tersebut bisa dilakukan secara manual atau menggunakan
library korpus khusus filter Bahasa Indonesia. Selain itu, Analisa dari ayat per ayat bisa
dilakukan keseluruhan walaupun hal tersebut memakan waktu yang sangat lama dan
membutuhkan kemampuan mesin komputer yang cepat untuk menghemat waktu. Hal lain
yang bisa dilakukan dalam penelitian selanjutnya adalah membandingkan sub model
Transformers khusus korpus Bahasa Indonesia seperti Indo-BERT, ROBERTA, dan juga
GPT bahasa Indonesia.
24
VI. REFERENSI
Adhikari, A., & Agrawal, R. (2019). Data Science: An Introduction. Springer.

Biswas, T. (2017). Legal Information Retrieval: A Critical Review. International Journal of
Advanced Research in Computer Science, 8(5), 1578-1582.
Brown, L., & Miller, K. (2023). Horizontal and Vertical Approaches to Legal Drafting:
Balancing Continuity and Change in Legislation. Legal Research Quarterly, 30(3),
420-435.
Brown, M., Williams, L., & Davis, R. (2019). Advancing Legal Research with AI and NLP:
A Comparative Study of Document Processing Efficiency. Law and Society Review,
28(4), 245-263.
Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Amodei, D.
(2020). Language Models are Few-Shot Learners. In Proceedings of the 34th
Conference on Neural Information Processing Systems (NeurIPS 2020), 1877-1901.
Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep
Bidirectional Transformers for Language Understanding. In Proceedings of the 2019
Conference of the North American Chapter of the Association for Computational
Linguistics: Human Language Technologies (NAACL-HLT 2019), 4171-4186.
Doe, J., & Smith, J. (2021). Challenges in Extracting Legal Information from Heterogeneous
Legislative Documents. International Journal of Legal Information, 25(2).
Géron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow:
Concepts, Tools, and Techniques to Build Intelligent Systems. O'Reilly Media.
Gonzalez, M. (2022). Contextual Use of Legal Language: A Case Study of Contract
Drafting. International Journal of Language and Law, 10(2), 215-230.
Gupta, N., & Lehal, G. S. (2019). A Review of Automated Essay Evaluation: Applications,
Approaches, and Evaluation. International Journal of Artificial Intelligence in
Education, 29(3), 305-341.
Hamdi, M. Z., & Mohd, M. (2019). Legal Information Retrieval Using Hybrid Latent
Semantic Analysis and Word2Vec Model. International Journal on Advanced
Science, Engineering and Information Technology, 9(3), 842-849.
Hassanzadeh, H. R., & Khoeini, S. (2019). Improving the Efficiency of Sentiment Analysis
using Deep Learning Techniques. Journal of Computational Science, 30, 19-26.
25
Ismail, I. A., Pernadi, N. L., & Febriyanti, A. (2022). How To Grab And Determine The Size
Of The Sample For Research. International Journal of Academic and Applied
Research (IJAAR), 6(9), 88-92.
Jayantini, I. G. A. S. R. (2018). The Hierarchy of Laws in Indonesia: Theory and Practices.
Jurnal Hukum Nasional Indonesia, 3(4).
Johnson, A., & Smith, J. (2022). Enhancing Legal Document Analysis: The Role of
Technology in Expediting Legal Research. Journal of Legal Technology, 18(3), 345-
360.
Johnson, R., Anderson, S., & White, P. (2018). Natural Language Processing Techniques
for Automated Legal Document Understanding. Journal of Artificial Intelligence and
Law, 12(1), 34-50.
Jurafsky, D., & Martin, J. H. (2020). Speech and Language Processing (3rd ed.). Pearson.
Karimi, S., Shamsfard, M., & Abdar, M. (2021). Multi-label text classification using
Transformers. Information Processing & Management, 58(1), 102370.
Kaur, M., & Rana, K. S. (2020). An Approach for Exploratory Data Analysis of NLP-based
Classification Datasets. In Proceedings of the 2020 International Conference on
Advances in Electronics, Computers and Communications (ICAECC 2020), 27-31.
Konrad, M., & Gouarin, L. (2019). PyPDF2: A Python Library to Extract Document
Information and Content. Journal of Open Source Software, 4(35).
https://doi.org/10.21105/joss.01586
Lee, C., & Garcia, B. (2021). Enhancing Legal Analysis with AI and NLP: Case Studies in
Accurate Information Retrieval. Artificial Intelligence in Law, 22(2), 78-95.
Lee, H., & Miller, K. (2021). The Impact of Language Complexity on Interpretation in Legal
Cases. Law and Society Review, 35(4), 567-582.
Lestari, D., & Kurniawan, K. (2020). Indonesian Legal Text Mining Using Natural
Language Processing. In Proceedings of the 2020 International Conference on
Advanced Computer Science and Information Systems (ICACSIS 2020), 103-108.
Li, X., Tao, Y., Cheng, J., & Zhang, Y. (2020). Improving Named Entity Recognition with
Neural Network Models and External Knowledge. IEEE Transactions on Knowledge
and Data Engineering, 32(8), 1577-1590.
Liao, X., & Li, C. (2021). PyPDF2Text: A Python Package to Convert PDF to Text. In
Proceedings of the 2021 International Conference on Multimedia Systems and Signal
Processing (ICMSSP 2021), 1-5.
26
Ma, Y., & Sun, C. (2020). Text Data Exploration for NLP. In Advances in Data Science,
Cyber Security and IT Applications (pp. 1-11). Springer, Singapore.
Moura, S., Ribeiro, M., & Martins, B. (2020). Extracting Text from PDF: A Comparative
Study. In Proceedings of the 2020 International Conference on Text, Speech, and
Dialogue (TSD 2020), 39-46.
Mweshi, G. K., & Sakyi, K. (2020). Application of sampling methods for the research
design. Archives of Business Review–Vol, 8(11).
Nainwal, H., Garg, A., Chakraborty, A., & Bathla, D. (2023). Text Summarization of
Amazon Customer Reviews using NLP. In 2023 10th International Conference on
Computing for Sustainable Global Development (INDIACom), New Delhi, India
(pp. 43-47).
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language
Models are Unsupervised Multitask Learners. OpenAI Blog. Retrieved from:
https://openai.com/blog/better-language-models/
Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., ... & Liu, P. J. (2019).
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer.
Journal of Machine Learning Research, 21(140), 1-67.
Rahman, A. R. (2020). Hierarchy of Legal Regulations in Indonesia: An Overview of the
Current Legal System. Jurnal Hukum Indonesia, 25(2)
Rajpurkar, P., Zhang, J., Lopyrev, K., & Liang, P. (2020). SQuAD: 100,000+ Questions for
Machine Comprehension of Text. In Proceedings of the 2016 Conference on
Empirical Methods in Natural Language Processing (EMNLP 2016), 2383-2392.
Sari, N. (2016). The Constitutionalization of Hierarchy of Laws in Indonesian Legal System.
Yuridika: Jurnal Ilmu Hukum, 31(1).
Smith, P., & Johnson, R. (2021). Leveraging Natural Language Processing for Legal
Document Analysis. Legal Information Management, 20(2), 215-230.
Vaswani, A., & Kim, Y. (2020). Transformers: A Survey. arXiv preprint arXiv:2003.09913.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... &
Polosukhin, I. (2017). Attention is All You Need. arXiv preprint arXiv:1706.03762.
Wang, P., Yang, P., & Shi, B. (2020). Multi-Task Learning with Cross-Task Attention for
Aspect Term Extraction. In Proceedings of the 2020 Conference on Empirical
Methods in Natural Language Processing (EMNLP 2020), 2811-2821.
Wang, Q., & Liu, Y. (2017). AI-Driven Approaches to Efficient Legal Document
Processing. International Journal of Computational Law, 7(2), 156-175.
27
Wijayanti, A. W., & Pujiati, I. (2019). Utilization of Natural Language Processing in Legal
Text Mining to Detect Similarities of Regulations in Bahasa Indonesia. In
Proceedings of the 2019 International Conference on Information Management and
Technology (ICIMTech 2019), 64-69.
Williams, A., Brown, L., & Miller, K. (2023). Big Data in the Legal Field: Managing the
Increasing Number of Legal Documents. Legal Information Management, 18(3),
420-435.
Winarni, D. (2019). Hierarchy of Law in Indonesia: A Comparative Study with United
Kingdom, France, and Germany. Sosiohumaniora: Jurnal Ilmu-Ilmu Sosial dan
Humaniora, 21(1).
World Legal Forum. (2023). Technology-Assisted Legal Analysis: Trends and Innovations
in the Legal Profession. Diakses dari
https://www.worldlegalforum.org/report/technology-assisted-legal-analysis
Yang, Z., Dai, Z., Yang, Y., Carbonell, J., Salakhutdinov, R., & Le, Q. V. (2019). XLNet:
Generalized Autoregressive Pretraining for Language Understanding. arXiv preprint
arXiv:1906.08237.
VII. Lampiran
Dataframe 1 full: https://bit.ly/44IAcO2
Dataframe 2 full: https://bit.ly/3rIIJlq
28

BDCTemplate B

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

BDCTemplate B

Diunggah oleh

Hak Cipta:

Format Tersedia

I.

JUDUL DAN ABSTRAK

Kata kunci: Peraturan Perundangan, Hukum, Deep Learning, NLP, Transformers

2.2 Rumusan Masalah

Gambar 1. Diagram Alur Penelitian

Konversi PDF (Portable Document Format):

Exploratory Data Analysis (EDA):

Natural Language Processing (Transformers)

Gambar 2. Sistem Peraturan Perundangan

Konversi PDF (Portable Document Format):

Gambar 3. Potongan Code PyPDF2

Gambar 4. Hasil konversi dari PDF ke bentuk teks

Gambar 5. Kumpulan Konversi Teks

Gambar 6. Struktur Dataframe 1 (Manual)

Gambar 8. Potongan Kode Transformers

1:= Level Tertinggi (UUD 1945)

Exploratory Data Analysis (EDA):

Gambar. 9 Statistik Dokumen

EDA Word Frequency Analysis (Word Cloud dan Statistik Kata)

Gambar 15. Dataframe 1 Level PERPRES (Level 4)

Gambar 17. Kata Sering Muncul Level 1-Level 5

Penggunaan Transformer Untuk Mendapatkan Summary (Ringkasan):

Gambar 18. Potongan Kode Transformers

Gambar 19. Keypoint Hasil dari Transformers

Gambar 20. Potongan Code Transformers Model

Gambar 21. Similarity Untuk Tema per Dokumen

Gambar. 22. Keselarahan Terkuat Tema Investasi Pemerintah

Gambar 23. Keselarasan Kedua Terkuat Tema Jaminan Sosial

Gambar 26. Keselarasan Ayat

Gambar 28. Visualisasi Similarity

Adhikari, A., & Agrawal, R. (2019). Data Science: An Introduction. Springer.

Anda mungkin juga menyukai