Anda di halaman 1dari 18

Diterjemahkan dari bahasa Inggris ke bahasa Indonesia - www.onlinedoctranslator.

com

Jurnal Sistem & Perangkat Lunak 186 (2022) 111211

Daftar isi tersedia diScienceDirect

Jurnal Sistem & Perangkat Lunak


halaman utama jurnal:www.elsevier.com/locate/jss

Pengembangan otomatis matriks penghubung persyaratan berdasarkan


kesamaan semantik untuk pengembangan perangkat lunak yang kuat✩
Dnyanesh RajpathakA,∗,Prakash M. PeranandamB,S. RameshB
APusat Keunggulan Analisis Lanjutan, Kepala Kantor Data dan Analisis, General Motors, Warren, Michigan 48092-2031, AS
BR&D Global, General Motors, Warren, Michigan 48092-2031, AS

articleinfo abstrak

Riwayat artikel: Dengan semakin kompleksnya perangkat lunak modern, penting agar persyaratan tekstual yang relevan
Diterima 21 Oktober 2020 Diterima dalam dihubungkan dengan benar ke dalam 'matriks kesukaan persyaratan' selama tahap awal pengembangan sistem.
bentuk revisi 11 Juni 2021 Diterima 25 Matriks penghubung persyaratan yang dihasilkan menyoroti interaksi langsung dan tidak langsung antara
Desember 2021
persyaratan yang berbeda, sehingga memfasilitasi peningkatan desain, pengembangan, dan pengujian sistem
Tersedia online 1 Januari 2022
perangkat lunak yang kompleks, misalnya perangkat lunak otomotif, arsitektur listrik/elektronik. Banyaknya
Kata kunci: persyaratan tekstual yang dikumpulkan dalam kehidupan nyata ditambah dengan kebisingan data membuat tugas
Rekayasa kebutuhan menghubungkan persyaratan otomatis menjadi latihan nontrivial. Dalam makalah ini, kami mengusulkan model
Penautan kebutuhan kesamaan semantik baru untuk menghubungkan persyaratan yang berbeda secara otomatis untuk mengaturnya
Kesamaan semantik menjadi matriks penghubung persyaratan. Model menghitung kesamaan dalam halistilah ke istilah,tuple-to-tuple,
Otomotif Danteks-ke-teksskor. Skor diberi peringkat untuk menentukan apakah tautan memiliki hubungan ''Tinggi'', ''Rendah'',
Pendukung keputusan
atau ''Tidak'' satu sama lain dalam matriks penghubung persyaratan. Model digunakan sebagai alat prototipe dan
kinerjanya divalidasi dengan menggunakan data kehidupan nyata. Kami juga membandingkan pendekatan kami
dengan pendekatan alternatif yang diusulkan dalam literatur. Sistem mencapai skor F1 rata-rata 0,93 dalam
menghubungkan persyaratan heterogen dengan benar.
©2022 Elsevier Inc. Semua hak dilindungi undang-undang.

1. Perkenalan tuntutan kuat pada kebenaran fungsional, operasi yang aman, dan
kemampuan toleran kesalahan, seperti tidak adanya satu titik kegagalan.
Dalam beberapa dekade terakhir, industri otomotif telah mengalami Fondasi dari proses pengembangan perangkat lunak yang ketat adalah
pertumbuhan yang sangat besar dengan meningkatnya jumlah fitur, rekayasa kebutuhan yang kuat, yang merupakan fokus dari makalah ini.
meledaknya konten perangkat lunak, dan dengan cepat bergerak menuju Dengan 100-an fitur yang diimplementasikan dalam perangkat lunak,
elektrifikasi dan mengemudi secara otonom. Munculnya teknologi yang jumlah persyaratan yang harus dikelola sangat banyak dan biasanya
disematkan dalam bentuk sensor diagnostik baru, modul, sistem perangkat persyaratan ini panjang, tersebar di banyak dokumen. Sangat penting
lunak tertanam yang canggih (Benedittini dkk.,2009), sistem bantuan bahwa semua persyaratan fitur yang berbeda terkait atau terkait satu sama
pengemudi tingkat lanjut (ADAS), perangkat nirkabel, dan sebagainya. lain dengan tepat. Untuk membuat masalah menjadi lebih kompleks,
Seperti yang ditunjukkan diGambar 1, ada ketergantungan besar pada persyaratan ini ditangkap oleh pemangku kepentingan yang berbeda dalam
modul tersemat (dan perangkat lunak modul yang sesuai) yang berjalan di bahasa Inggris yang mengalir bebas dan tidak selalu dengan menggunakan
kendaraan modern dan ini merupakan faktor pendorong utama di sebagian sekumpulan kosakata yang terkontrol (Mich dkk.,2004; Geravasi dan Zowghi,
besar terobosan, misalnya pengemudian otonom, konektivitas, elektrifikasi, 2005). Oleh karena itu, ini adalah latihan yang tidak sepele untuk
mobilitas pintar. Tidak mengherankan, perusahaan yang mengembangkan membangun hubungan yang lengkap, konsisten, dan tidak ambigu antara
teknologi untuk kendaraan yang terhubung dan otonom berjumlah lebih persyaratan untuk memastikan kelengkapan dan kebenaran fungsi
dari $9,5 miliar hingga kuartal ketiga tahun 2018 (Apostu et al.,2005). perangkat lunak yang dimaksud.
Makalah ini berkaitan dengan pengembangan perangkat lunak Di bawah ini, kami menunjukkan contoh umum persyaratan yang
kontrol yang mewujudkan fitur-fitur yang disebutkan di atas. dikumpulkan di domain kami. Persyaratan ini terkait dengan fungsi start
Perangkat lunak kontrol diharapkan kuat dalam artian ada kendaraan:

Fitur Mulai Tombol Tekan Tanpa


✩ Editor: Daniela Damian. Kunci: Prasyarat:Transmisi di TAMAN;
∗ Penulis yang sesuai.
1.Pedal rem ditekan
Alamat email:dnyanesh.rajpathak@gm.com (D. Rajpathak),
prakash.peranandam@gm.com (PM Peranandam),ramesh.s@gm.com (S. 2.Tekan tombol Mulai/Berhenti
Ramesh). 3.Sistem menghidupkan kendaraan

https://doi.org/10.1016/j.jss.2021.111211 0164-1212/©2022 Elsevier


Inc. Semua hak dilindungi undang-undang.
D. Rajpathak, PM Peranandam dan S. Ramesh Jurnal Sistem & Perangkat Lunak 186 (2022) 111211

Gambar 1.Modul berbeda dan sistem terkaitnya dalam kendaraan modern.

Pasca-Kondisi:Sistem memungkinkan inisialisasi lengkap dari sub- ada banyak-ke-banyak hubungan langsung dan tidak langsung ada di antara
sistem yang diperlukan, misalnya: (a) Inisialisasi mesin, (b) fitur yang berbeda. Kompleksitas data yang melekat membuat sulit atau
Inisialisasi HMI, dan (c) Inisialisasi rem, dalam urutan ''a bahkan tidak mungkin bagi banyak pakar manusia untuk menangkap dan
→ B→C''; dan kemudian mengaktifkan kesiapan mengemudi. memelihara model mental dari persyaratan yang relevan untuk
menafsirkannya secara bersamaan.
Fitur Mulai Tombol Jarak Jauh:
Prasyarat:Transmisi di TAMAN; Sistem kendaraan dalam kondisi Alat siap pakai, misalnya IBM DOORS©1memberikan dukungan awal
jangkauan sinyal; untuk menghubungkan persyaratan dengan mengizinkan pengembang
perangkat lunak untuk menghubungkan persyaratan secara manual.
1.Tekan urutan tombol yang ditentukan dalam fob kunci dalam Namun, penautan manual memiliki sejumlah kekurangan saat digunakan
urutan atau melalui aplikasi seluler produsen peralatan asli dalam kehidupan nyata: 1. Pengembang harus benar-benar menyadari
(OEM) dari mana saja asalkan koneksi jaringan di kedua berbagai persyaratan yang terkait dengan domain mereka, yang tidak
ujungnya. praktis karena skala datanya, 2. Karena persyaratannya tersebar di
2.Sistem menerima sinyal untuk pengengkolan. beberapa halaman dalam dokumen persyaratan yang berbeda menjadi sulit
3.Sistem menghidupkan kendaraan. untuk membuat peta mental lengkap persyaratan terkait untuk menjaga
Kondisi pos:Sistem memungkinkan subset inisialisasi, yaitu hanya sub- konsistensi penautan, 3. Bahasa yang digunakan untuk menjelaskan
sistem yang diperlukan, katakanlah, (a) Mesin dan (c) Rem dan hanya persyaratan tidak standar, yang mengarah keambiguitas semantik.
dengan kemampuan terbatas. Sistem menunggu pengemudi memasuki Misalnya, pertimbangkan dua cuplikan persyaratan "periksa lampu mesin
kendaraan dan memicu prosedur lain untuk menyelesaikan proses HIDUP" vs "Modul Kontrol Program dengan kode kesalahan P0300".
inisialisasi yang tersisa dan kemudian mengaktifkan kesiapan berkendara Meskipun kedua cuplikan ini mengacu pada persyaratan khusus sistem yang
dalam waktu yang telah dikalibrasi. sama, keduanya tidak memiliki terminologi yang tumpang tindih satu sama
Persyaratan khusus kedua modul ini bahkan ketika ditulis dalam dokumen yang sama dapat terpisah setidaknya puluhan halaman. Jelas, kedua lain. Tanpa memiliki pemahaman mendalam tentang domain, tidak mungkin
persyaratan ini terkait dan ahli materi pelajaran (UKM) perlu menjaga hubungan mereka dalam model mental sehingga mereka dapat dianalisis bersama menghubungkan persyaratan seperti persyaratan terkait, dan 4. Dokumen
selama pengembangan dan pengujian perangkat lunak. Dapat dibayangkan bahwa non-ahli bahkan mungkin tidak menyadari hubungan antara kedua persyaratan biasanya terdiri dari singkatan dan penting untuk memperjelas
persyaratan ini. Untuk membuat masalah menjadi lebih kompleks, dalam beberapa kasus lain, persyaratan terkait mungkin termasuk dalam domain singkatan ini dengan menggunakan konteks di mana mereka disebutkan. Ini
yang berbeda. Misalnya, perhatikan persyaratan fitur keselamatan ''Blind Spot Monitor & Alert'' dalam domain kontrol tubuh dengan prasyarat: ''Mesin membantu untuk menghindari entri duplikat dan tautan persyaratan yang
Berjalan; dan Transmisi di DRIVE''. Insinyur penguji dapat dengan mudah mempertimbangkan prasyarat saja dan melakukan pengujian. Dengan tidak ambigu dalam matriks tautan persyaratan. Misalnya, perhatikan kode
mengabaikan hubungan ketergantungan tidak langsung antara dua persyaratan fitur penyalaan mesin, teknisi penguji mungkin melewatkan kesalahan ''P0452: Sensor Tekanan Sistem Kontrol Evaporatif Input Rendah
pertimbangan urutan pengengkolan mesin dan urutan inisialisasi yang berbeda di antara keduanya. Konsekuensi dari kegagalan untuk menguji masuk TPS''. Sangat penting untuk membedakan singkatan TPS dengan
persyaratan terkait secara bersamaan dapat menciptakan situasi di mana fitur keselamatan mungkin tidak berfungsi dalam skenario start jarak jauh benarsensor tekanan tangkikarena berdasarkan konteks yang dilaporkan
karena urutan inisialisasi yang berbeda. Penting untuk mengidentifikasi jenis ketergantungan dan interaksi tidak langsung ini di muka untuk merancang sensor tekanan sistem kontrol emisi evaporatif input rendah telah
dan mengembangkan perangkat lunak yang benar secara fungsional. Ketergantungan tidak langsung seperti itu sulit diekstraksi oleh non-ahli dan menghasilkan pengaturan kode kesalahan P0452. Mengingat tantangan ini,
mengingat kerumitan kendaraan modern teknisi penguji mungkin melewatkan mempertimbangkan urutan pengengkolan mesin dan urutan inisialisasi
ada kebutuhan mendesak untuk mengotomatiskan penautan persyaratan
yang berbeda di antara keduanya. Konsekuensi dari kegagalan untuk menguji persyaratan terkait secara bersamaan dapat menciptakan situasi di mana
heterogen menjadi formalisasi matriks persyaratan yang tidak ambigu
fitur keselamatan mungkin tidak berfungsi dalam skenario start jarak jauh karena urutan inisialisasi yang berbeda. Penting untuk mengidentifikasi jenis
dengan menangani data skala industri. Pada akhirnya, tujuan kami adalah
ketergantungan dan interaksi tidak langsung ini di muka untuk merancang dan mengembangkan perangkat lunak yang benar secara fungsional.
untuk menghindari analisis kebutuhan yang tidak lengkap untuk membantu
Ketergantungan tidak langsung seperti itu sulit diekstraksi oleh non-ahli dan mengingat kerumitan kendaraan modern teknisi penguji mungkin
merancang perangkat lunak dengan perilaku yang terbatas atau tanpa
kesalahan (Wong dkk.,2010).
melewatkan mempertimbangkan urutan pengengkolan mesin dan urutan inisialisasi yang berbeda di antara keduanya. Konsekuensi dari kegagalan

untuk menguji persyaratan terkait secara bersamaan dapat menciptakan situasi di mana fitur keselamatan mungkin tidak berfungsi dalam skenario start

Proses Pengembangan V-cycle ISO 26262 menetapkan kerangka


jarak jauh karena urutan inisialisasi yang berbeda. Penting untuk mengidentifikasi jenis ketergantungan dan interaksi tidak langsung ini di muka untuk

merancang dan mengembangkan perangkat lunak yang benar secara fungsional. Ketergantungan tidak langsung seperti itu sulit diekstraksi oleh non-
kerja yang mengikat setiap jenis pengujian ke dokumen desain atau
ahli dan mengingat kerumitan kendaraan modern Penting untuk mengidentifikasi jenis ketergantungan dan interaksi tidak langsung ini di muka untuk
persyaratan yang sesuai, tetapi menghadirkan tantangan terkait
merancang dan mengembangkan perangkat lunak yang benar secara fungsional. Ketergantungan tidak langsung seperti itu sulit diekstraksi oleh non-

ahli dan mengingat kerumitan kendaraan modern Penting untuk mengidentifikasi jenis ketergantungan dan interaksi tidak langsung ini di muka untuk

1https://www.ibm.com/products/requirements-management.
merancang dan mengembangkan perangkat lunak yang benar secara fungsional. Ketergantungan tidak langsung seperti itu sulit diekstraksi oleh non-ahli dan mengingat kerumitan kendaraan modern

2
D. Rajpathak, PM Peranandam dan S. Ramesh Jurnal Sistem & Perangkat Lunak 186 (2022) 111211

desain baru. Selama tahap awal pengembangan sistem, sangat penting Alih-alih, ontologi domain digunakan untuk mengidentifikasi frasa
untuk membuat dokumen persyaratan seakurat mungkin untuk teknis penting yang dilaporkan dalam dokumen persyaratan dan
menangkap operasi fungsional perangkat lunak yang dimaksud karena digunakan untuk menghitung kesamaan semantik. Oleh karena itu,
lebih mahal untuk memperbaiki kesalahan selama tahap dalam dokumen persyaratan baru jika persyaratan baru dilaporkan,
pengembangan selanjutnya (Kotonya dan Sommerville,1998). Matriks ontologi domain kami dapat ditambah tepat waktu untuk identifikasi
ketertelusuran (Ramesh et al.,1997;Zowghi dan Gervasi,2003) tepat waktu guna memastikan cakupan yang lengkap.
mengkorelasikan persyaratan yang berbeda untuk menentukan 3. Model kesamaan kami memperluas model klasik, misalnya model
hubungan kelengkapannya. Pertama, ini memberi perancang sistem PMI-IR (Wu dan Palmer,1994;Turney,2002,2006), di mana kesamaan
alat yang sangat berguna yang menyediakan tampilan lengkap sistem. antara dokumen persyaratan dihitung dari tiga ukuran. Pertama,
Kedua, matriks kebutuhan mendemonstrasikan bagaimana sistem istilah unigram kritis dari dua persyaratan digunakan untuk
memenuhi kebutuhan pengguna dalam hal kebutuhan yang menghitungskor semantik term-to-term, sim (JangkaSaya, KetentuanJ),
dihubungkan satu sama lain selama desain, implementasi, dan validasi maka frase multi-gram digunakan untuk menghitungskor semantik
(Ramesh et al., 1997;Palmer,1997;Zowghi dan Gervasi,2003). Dan tuple-totuple, sim(TupelSaya, TupelJ), dan akhirnya dua skor kesamaan
ketiga, ini menunjukkan bagaimana persyaratan sistem yang berbeda semantik sebelumnya digabungkan secara unik menjadi finalskor
terkait satu sama lain dengan cara yang tidak ambigu memfasilitasi semantik dokumen-ke-dokumen, sim(RSaya,RJ). Melalui percobaan
manajemen perubahan persyaratan yang mulus (Pohl,1997). Oleh kami, kami telah menunjukkan bahwa ini membantu mengurangi
karena itu, jelas bahwa persyaratan yang saling terkait, yaitu masalah utama, seperti ketidakkonsistenan, ketidaklengkapan,
persyaratan yang menentukan sub-fitur fungsional atau yang mengacu ambiguitas, dan kompleksitas. Selain itu, karena persyaratan yang
pada bagian umum, harus diperiksa konsistensinya. Sepele, ditautkan diberi peringkat untuk memiliki hubungan ''Tinggi'',
persyaratan yang saling terkait cenderung memiliki masalah ''Rendah'', dan ''Tidak'' satu sama lain, ini meningkatkan penerapan
inkonsistensi tingkat tinggi dan yang dapat berkembang menjadi praktis dari matriks penghubung persyaratan. Pengguna akhir dapat
masalah kelengkapan dan kebenaran fungsional. dengan cepat memusatkan perhatian mereka pada persyaratan yang
Untuk mengatasi hambatan berbeda yang disebutkan dalam dua memiliki kesamaan "Tinggi" satu sama lain.
paragraf sebelumnya, dalam proposal kami model kesamaan semantik
diusulkan untuk secara otomatis menghitung kesamaan semantik 4. Dari perspektif teknik, upaya terbatas diinvestasikan dalam literatur
antara persyaratan tekstual yang berbeda. Setiap dua persyaratan untuk mengembangkan matriks penghubung persyaratan kerja
dengan skor kesamaan di atas ambang tertentu (dihitung secara dalam domain otomotif. Melalui pekerjaan kami, kami menjembatani
empiris) dihubungkan satu sama lain. Akhirnya, persyaratan terkait kesenjangan ini yang membantu mengurangi masalah mengubah
diwakili dalam matriks ketertelusuran yang konsisten untuk persyaratan yang tidak terstruktur menjadi matriks formal dan
meningkatkan konsistensi, kelengkapan persyaratan yang pada terstruktur dengan ukuran yang dapat dikelola. Karena matriks
gilirannya meningkatkan kebenaran. Dalam literatur, beberapa ketertelusuran persyaratan formal mengurangi ukuran data yang
pendekatan dibahas untuk mengekstrak hubungan antara persyaratan berlebihan, ini membantu mengurangi waktu yang diperlukan untuk
dengan cara yang diformalkan (Egyed,2001;Kozlenkov dan Zisman,2002 menganalisis persyaratan heterogen untuk mengidentifikasi jumlah
;Borg dkk.,2003; Nentwich et al.,2003;Gnesi et al.,2005;Lormans dan total persyaratan yang saling bertentangan.
Deursen, 2005;Egyed,2006;Kamalrudin dkk.,2010;Pelabuhan et al.,2011;
Sisa kertas diuraikan sebagai berikut: di Bagian2, kami menyajikan
Sultanov dkk.,2011;Noack,2013). Pendekatan ini menggunakan
keadaan seni yang relevan. Di bagian3, kami memformalkan pernyataan
beberapa teknik independen, seperti ketertelusuran, analisis semantik,
masalah kami dan kemudian menyajikan langkah-langkah berbeda yang
spesifikasi (semi-) formal, dan algoritma heuristik berdasarkan teknik
terlibat dalam pendekatan kami. Di bagian4, pertama kami menjelaskan
swarm bersama dengan teknik dari pengambilan informasi, seperti
ontologi domain (Bagian4.1), yang digunakan untuk membubuhi keterangan
Vector Space Model, Latent Semantic Indexing, probabilistic inference
istilah kunci yang dilaporkan dalam dokumen persyaratan dan kemudian di
network, Alokasi Dirichlet laten, indeks Jaccard, dan kesamaan Cosine.
Bagian4.2kami menjelaskan berbagai langkah pembersihan data untuk
mengurangi kebisingan. Di bagian5, kami membahas secara rinci model
Pendekatan kami memperluas persyaratan yang ada untuk
kami dan menunjukkan bagaimana kesamaan semantik antara dua
menghubungkan dan teknik ketertelusuran, dimana kami memformalkan
dokumen persyaratan dihitung untuk diformalkan dalam matriks penautan
pengetahuan domain dalam ontologi domain. Model domain ini
persyaratan terstruktur. Di bagian6, kami mengevaluasi kinerja pendekatan
memungkinkan kami untuk memberi tag dan menganotasi istilah teknis
kami melalui serangkaian percobaan. Lebih penting lagi, kami mengevaluasi
penting yang disebutkan dalam dokumen persyaratan secara tepat. Dengan
kebenaran dan keakuratan matriks penautan persyaratan dan
demikian, kami hanya mempertimbangkan frasa teknis yang relevan saat
mendiskusikan keuntungan utama dari proposal matriks penautan
melakukan komputasiterm-toterm,tuple-to-tuple(untuk menangani frase
persyaratan otomatis. Terakhir, di Bagian7kami menyimpulkan makalah
multi-istilah), dan akhirnya dokumen-ke-dokumenkesamaan semantik
kami dengan menyoroti temuan utama.
antara dua persyaratan. Hal ini juga membantu mengurangi noise yang
biasa diamati dalam data teks (mis. menghentikan kata atau frasa non-
2. Tinjauan literatur
teknis). Kami membuat kontribusi kunci berikut melalui pekerjaan kami:

1. Pendekatan kami memfasilitasi penemuan otomatis tidak hanya Dokumen persyaratan kehidupan nyata terdiri dari beberapa
eksplisit, tetapi juga hubungan implisit antara persyaratan tekstual persyaratan yang saling terkait membuat pemodelan manual atau penataan
yang tidak terstruktur bahkan ketika mereka berbagi sedikit atau sistematisnya menjadi tugas yang membosankan untuk pemeriksaan
tidak ada informasi pada tingkat permukaan. Untuk menangani ini, konsistensi dan kelengkapan (Ramesh et al.,1997;Zowghi dan Gervasi,2003).
model kami mengumpulkan informasi konteks yang ada baik di Untuk mengatasi keterbatasan ini beberapa teknik, seperti ketertelusuran,
tingkat dokumen maupun di tingkat korpus, yang digunakan untuk analisis semantik, spesifikasi formal, spesifikasi semi-formal, dan algoritma
menghitung skor semantik. heuristik diusulkan pertama untuk mengekstrak dan kedua untuk
2. Tidak seperti pendekatan yang ada (Gnesi et al.,2005; menghubungkan kebutuhan yang berbeda dengan cara formal untuk
Lormans dan Deursen,2005;Sultanov dkk.,2011) di mana mencapai konsistensi yang tinggi.Egyed,2001;Kozlenkov dan Zisman,2002;
jumlah topik dari dokumen persyaratan ditentukan Borg dkk.,2003;Nentwich et al.,2003;Gnesi et al.,2005;Lormans dan Deursen,
berdasarkan beberapa heuristik atau oleh keahlian manusia, 2005;Egyed,2006;Kamalrudin dkk.,2010;Pelabuhan et al., 2011;Sultanov dkk.,
tidak ada kendala yang diberlakukan dalam model kami. 2011;Noack,2013;Wang dkk.,2018).

3
D. Rajpathak, PM Peranandam dan S. Ramesh Jurnal Sistem & Perangkat Lunak 186 (2022) 111211

Di dalamPelabuhan et al.(2011), penambangan teks digunakan untuk modul DOORS digunakan. Di lapisan pertama, tautan antara kasus uji
membangun matriks ketertelusuran. Hubungan banyak-ke-banyak antara dilacak, di lapisan kedua mekanisme filter yang rumit diterapkan, dan
persyaratan fungsional dan non-fungsional diatur untuk menentukan terakhir dalam penalaran berbasis kasus digunakan untuk menentukan
kebenaran dan kelengkapannya. Di dalamLormans dan Deursen(2005), kasus di mana tautan uji dapat diambil untuk digunakan kembali. di
kesamaan (yakni persyaratan ditelusuri satu sama lain) dan perbedaan lapisan ketiga. Di dalamBorg dkk.(2014), model pengambilan informasi
(yakni persyaratan tidak ditelusuri satu sama lain) skor antara persyaratan probabilistik digunakan untuk melacak pemulihan dan untuk
dihitung. Di sini, Latent Semantic Indexing (LSI) dengan Cosine Similarity menghitung dan memberi peringkat skor sebagai probabilitas antara
digunakan untuk mengukur kesamaan antara kebutuhan yang berbeda. dokumen persyaratan dan kode sumber yang dihasilkan. Ukuran
Pada baris yang sama, diGnesi et al.(2005), pengertian Latent Semantic evaluasi yang berbeda dibahas untuk mengevaluasi kinerja model. Di
Analysis (LSA) (Deerwester dkk.,1990) dieksploitasi dan mereka telah dalamMarcus dan Maletic(2003), model LSI probabilistik diusulkan
menunjukkan hasil yang menjanjikan. Model LSA didasarkan pada untuk secara otomatis mengidentifikasi tautan ketertelusuran dari
Dekomposisi Nilai Singular untuk menurunkan struktur semantik laten ke dokumentasi sistem ke kode sumber program. Akhirnya, langkah-
dalam matriks istilah per dokumen. Model mengidentifikasi hubungan langkah evaluasi yang berbeda dibahas dalamParvathy et al.(2008) Dan
antara persyaratan dan desain bersama dengan hubungan antara Dekhtyar dkk.(2007) untuk mengevaluasi matriks ketertelusuran.
persyaratan dan pengujian. Performa model telah diuji pada kumpulan data Semua pendekatan yang dibahas di sini sangat penting dalam
dengan ukuran berbeda. Ketepatan tertinggi 0,69 dilaporkan di antara mengidentifikasi hubungan antar dokumen, ketergantungan dokumen,
semua studi kasus dengan skor ingatan tertinggi 0,89. Dalam domain kami, dan konsolidasi dokumen dengan pengambilan persyaratan yang
kami mengamati bahwa representasi LSA yang padat menyulitkan terkait dengan artefak. Dipahami secara umum, istilah dalam dokumen
pengindeksan berdasarkan dimensi individu dan menghasilkan kesuksesan persyaratan diambil dan digunakan untuk mewakili dokumen baik
yang terbatas. Secara umum, dimensi topik laten tidak dapat dipilih ke sebagai kumpulan kata atau sebagai vektor dalam ruang dimensi
angka arbitrer, tetapi bergantung pada peringkat matriks. Keterbatasan tinggi, atau sebagai variabel stokastik. Langkah-langkah pembobotan
utama dari pendekatan ini adalah bahwa model tidak dapat dibaca oleh istilah yang berbeda ditambah dengan langkah-langkah kesamaan
manusia, dan proses debugnya hanya dimungkinkan dengan menemukan semantik, seperti divergensi Jensen-Shannon (Manning dkk.,2008),
kata yang mirip untuk setiap kata di ruang laten. Selain itu, penentuan kesamaan kosinus (Manning dkk.,2008), dan jarak Jaccard (Manning
jumlah topik didasarkan pada heuristik dan membutuhkan pemahaman dkk.,2008) digunakan untuk membandingkan kesamaan antara
yang mendalam tentang suatu domain. Terakhir, ukuran Kesamaan Kosinus ketertelusuran persyaratan (Abadi dkk.,2008). Dibandingkan dengan
dalam pendekatan mereka mengasumsikan bahwa frase dalam dua pendekatan ini, dalam pendekatan kami ontologi domain formal
persyaratan memiliki tingkat tumpang tindih tertentu satu sama lain dalam digunakan untuk mengidentifikasi frase multi-istilah kritis dari
representasi permukaannya. Di domain kami, tidak dapat dijamin memiliki dokumen persyaratan yang berbeda. Dan seperti yang ditunjukkan di
jenis tumpang tindih antara dua persyaratan karena kami tidak
Rajpathak dan Singh(2014), ekstraksi informasi dengan bantuan
menyediakan kosakata standar apa pun untuk menghasilkan persyaratan.
pengetahuan domain membangun hubungan yang lebih baik antara
Oleh karena itu, model kesamaan semantik kami harus mengatasi kasus
dokumen yang relevan bila dibandingkan dengan model, misalnya
ketika ada istilah yang terbatas atau tidak ada tumpang tindih dalam dua
model LDA, yang membangunβDanM×kmatriks. Juga, dibandingkan
persyaratan. Dalam kedua kasus tersebut, model perlu menghitung
dengan langkah-langkah kesamaan semantik dasar yang dilaporkan
kesamaan antara kebutuhan dengan akurasi yang tinggi.
sebelumnya, dalam pendekatan kami model kesamaan semantik
hierarkis diusulkan untuk menghitung kesamaan antara dua
persyaratan. Dalam model kami, kesamaan semantik dihitung dalam
Pendekatan ketertelusuran dengan kemampuan visualisasi
halskor semantik term-to-term, sim (JangkaSaya, KetentuanJ),skor
diusulkan (Kamalrudin dkk.,2010) dalam alat penelusuran otomatis
semantik tuple-to-tuple, sim(TupelSaya, TupelJ), dan kedua skor ini
yang ringan untuk melakukan pemeriksaan ketidakkonsistenan antara
digabungkan menjadi skor semantik dokumen-ke-dokumen, sim(RSaya,
persyaratan tekstual. Di dalamEgyed(2001), pemeriksaan konsistensi
RJ) untuk menghitung kesamaan semantik antara dua persyaratan.
aktif dan pasif tercakup, di mana persyaratan diterjemahkan ke dalam
Di dalamWang dkk.(2018), sebuah metode baru berdasarkan jaringan syaraf
diagram bahasa pemodelan terpadu (UML) untuk interpretasi formal
tiruan (JST) diperkenalkan untuk meningkatkan kemampuan menyelesaikan
mereka (Egyed,2006;Nentwich et al.,2003) untuk perbandingannya.
masalah polisemik secara otomatis.2ketentuan. Secara khusus, jaringan saraf
Pengecekan konsistensi spesifikasi desain yang ditulis dalam bahasa
feedforward dibangun yang memanfaatkan coreference dengan skor tertinggi
alami dilakukan dengan menggunakan pendekatan berbasis
suatu istilah dalam persyaratan yang berbeda. Ini membantu untuk mempelajari
pengetahuan. Spesifikasi desain direpresentasikan sebagai model UML
apakah suatu istilah memiliki arti yang sama dalam persyaratan yang berbeda.
dengan persyaratan fungsionalnya. Tujuan diwakili dalam hal
Model peringkat cluster-pair diusulkan untuk mendeteksi koreferensi istilah.
pernyataan aksiomatik.
Istilah, katakanlah 't' dan koreferensi skor tertingginya dalam dua persyaratan,
Pendekatan yang diusulkan olehKozlenkov dan Zisman(2002)
katakanlah rSayadan rJdihasilkan melalui lapisan penyatuan dan jaringan saraf
mengidentifikasi inkonsistensi yang diamati dalam model desain dan
lapisan tunggal dilatih. Dalam kasus, di mana outputnya salah, matriks term-by-
digunakan untuk menentukan aturan konsistensi. Aturan dapat
requirement diperbarui dengan memisahkan kolom 't' menjadi dua kolom yang
dimodifikasi tanpa harus melakukan anotasi khusus, namun aturan
berbeda. Pendekatan pemulihan jejak tautan berbasis pengambilan informasi
diperlakukan sebagai kotak hitam. Perilaku aturan hanya dapat diamati
digunakan untuk menghitung kesamaan pasangan persyaratan dengan
selama evaluasi mereka.
menggunakan matriks term-per-persyaratan yang diperbarui.
Di dalamFarfeleder dkk.(2011), ontologi domain digunakan untuk
memformalkan persyaratan yang ditangkap dalam bahasa alami untuk
memastikan konsistensi, kelengkapan, dan kebenarannya. Untuk mengatasi Akhirnya, diMahmud dan Niu(2015) manfaat potensial menggunakan
proses manual formalisasi persyaratan yang rawan kesalahan, sebuah alat semantik bahasa alami telah diselidiki dalam pengambilan tautan
bernama DODT diusulkan. Ini mengubah persyaratan tekstual menjadi ketertelusuran otomatis. Para penulis telah menyelidiki spektrum yang luas
persyaratan semi formal dengan menggunakan ontologi domain. DODT dari metode pencarian informasi berdasarkan informasi semantik. Beberapa
juga memfasilitasi pengkategorian persyaratan ke dalam kluster yang metode utama termasuk, pengindeksan semantik laten (Deerwester dkk.,
relevan berdasarkan subset yang ditentukan pengguna, mengelola konflik 1990), model ruang vektor (Rosario, 2000), alokasi Dirichlet laten (Blei et al.,
persyaratan, dan melakukan pelacakan persyaratan. 2003), ruang vektor
Dalam dekade terakhir ini, berbagai teknik dalam pencarian
informasi digunakan untuk menghubungkan dan menguji persyaratan. 2 Polisemi mengacu pada koeksistensi beberapa makna untuk suatu istilah yang dilaporkan
Secara khusus, model tiga lapis diusulkan olehNoack(2013) di mana dalam dokumen persyaratan yang berbeda.

4
D. Rajpathak, PM Peranandam dan S. Ramesh Jurnal Sistem & Perangkat Lunak 186 (2022) 111211

model dengan dukungan tesaurus (Huffman-Hayes dkk.,2003), hirarki ontologi yang sama maka dikatakan mirip satu sama lain. Di dalam
menormalkan jarak Google (Cilibrasi dan Vitanyi,2007), analisis Rada et al.(1989), bootstrapping digunakan untuk membangun leksikon
semantik eksplisit (Gabrilovich dan Markovitch,2007), dan model ruang semantik dengan menggunakan informasi konteks dengan satu kata benda
vektor berkemampuan partof-speech (Capobianco dkk.,2013). Metode di kiri dan kanan kata benda kepala.Roark dan Charniak(1998) memperluas
ini dipilih karena kesesuaiannya dalam menangkap dan menyajikan pendekatan dengan mencari kata-kata yang muncul bersamaan dalam
tautan ketertelusuran persyaratan dalam sistem perangkat lunak. formasi sintaksis. Akhirnya, perubahan besar dalam penelitian ini diusulkan
olehBiemann et al.(2004), di mana sumber daya leksikal-semantik dibangun
Kami juga meninjau teknik relevan yang diusulkan dalam literatur dengan menggunakan statistik kejadian bersama berbasis kalimat. Di dalam
terkait kesamaan semantik untuk membandingkan dokumen teks. Mohammad dan Hirst(2012), beberapa ukuran distribusi jarak semantik
Teknik-teknik ini secara luas diklasifikasikan ke dalam — pengindeksan ditinjau, seperti milik WordNet3pendekatan berbasis jaringan semantik
semantik laten (LSI) (Deerwester et al. 1999), point-wise mutual (yaitu penghitungan tepi), subsumer umum terendah, dan pendekatan
information (PMI) (Turney,2001), representasi semantik berbasis berbasis kamus untuk membandingkan kata target dengan kata
korpus (Riloff dan Gembala,1997;Mihalcea et al.,2006), dan pengukuran konteksnya. Di dalam Budanitsky dan Hirst(2006), langkah-langkah yang
berbasis struktur ontologi (Rada et al.,1989;Roark dan Charniak, 1998; berbeda, misalnya pendekatan berbasis kamus, tesauri terstruktur Roget,
Leacock dan Chodorow,1998;Li dkk.,2003). Dalam LSI (Deerwester et al. WordNet dan jaringan semantik lainnya, panjang jalur taksonomi,
1999), dokumen secara otomatis diindeks dan diambil kembali dengan penskalaan jaringan dievaluasi berdasarkan jarak semantik. Di dalam
menganalisis hubungan antar dokumen berdasarkan istilah yang Patwardhan et al. (2003), Algoritma Lesk yang Diadaptasi (Banerjee dan
terkandung di dalamnya. Matriks dokumen istilah mewakili Pedersen, 2002) diperluas di mana ontologi digunakan untuk menghasilkan
kemunculan kata-kata dalam teks dan dekomposisi nilai singular pasangan kata. Di dalamHarispe dkk.(2014), sebuah studi ekstensif tentang
mengurangi jumlah kolom dengan mempertahankan struktur baris berbagai ukuran kesamaan semantik berbasis ontologi, seperti pendekatan
semantik. Di LSI, hanya kata istilah tunggal yang digunakan selama berbasis tepi, pendekatan berbasis simpul (misalnya strategi berbasis fitur,
konstruksi matriks dokumen istilah, sedangkan dalam pendekatan strategi berbasis teori informasi), dan pendekatan hibrid dilakukan.
kami, kata istilah tunggal dan multi istilah digunakan sebagai fitur Kerangka pemersatu umum untuk kesamaan semantik berbasis ontologi
utama untuk menghitung kemiripan dokumen. Dalam pendekatan juga dibahas.
kami, kami juga mempertimbangkan informasi konteks tingkat
dokumen dan korpus untuk dihitungistilah ke istilah,tuple-to-tuple, Dan Dibandingkan dengan pendekatan ini, dalam pendekatan kami, kami
dokumen-ke-dokumenskor kesamaan semantik. awalnya menggunakan ontologi domain untuk menandai istilah teknis
Dalam model PMI (Turney,2001), gagasan tentang kejadian utama dan kemudian mendokumentasikan dan informasi konteks tingkat
bersama antara dua frasa teks, katakanlahfrasaSayaDanfrasaJdihitung korpus dikumpulkan. Vektor dibangun menggunakan informasi konteks
dalam hal produk probabilitas co-kejadian mereka. Kedua tindakan untuk menghitung skor kesamaan semantik hierarkis, seperti termto-term,
tersebut, sepertikesamaan atribusiDankesamaan relasional(Wu dan tuple-to-tuple, dan document-to-document. Akhirnya, dalam literatur yang
Palmer,1994;Turney,2002) digunakan untuk menentukan kesamaan ada ada pekerjaan terbatas yang menggabungkan langkah-langkah
antara dua frase. Dalam kesamaan atribusi,frasaSayaDanfrasaJdikatakan semantik antara dokumen persyaratan untuk membangun matriks
mirip satu sama lain jika mereka berbagi seperangkat sifat yang sama. penghubung persyaratan operasional. Melalui pekerjaan kami, kami
Dalam kesamaan relasional, kesamaan antara pasangan dua kata yang menjembatani kesenjangan ini dengan menunjukkan bagaimana matriks
terkait dengan frasa ini, katakanlahfrasaSaya= (wSaya, wJ) DanfrasaJ= (wk, penghubung persyaratan operasional dapat dibangun untuk
wM) dianggap berdasarkan tingkat korespondensi antarafrasaSayaDan membandingkan data persyaratan skala industri.
frasaJ. Dibandingkan dengan (Turney,2001) di mana kesamaan dihitung
dengan menggunakan frasa kata tunggal, model kami memperluasnya 3. Rumusan masalah dan metodologi
dengan membangun frasa multi-istilah. Model kami juga berhasil
menangani ketersebaran data sambil menghitung kesamaan n-gram
Kami membingkai masalah persyaratan yang menghubungkan dalam
orde tinggi, misalnya tiga-empat-lima gram.
hal kesamaan komputasi antara dua persyaratan yang ditentukan baik di
dalam atau di seluruh dokumen persyaratan. Secara formal, kami
Gagasan utama di balik menghitung kesamaan semantik dengan
mendefinisikan tugas kesamaan semantik dalam hal fungsi yang
menggunakan model berbasis korpus (Riloff dan Gembala,1997;
ditunjukkan pada Persamaan.(1):
Mihalcea et al.,2006) adalah untuk mengkarakterisasi makna ekspresi
linguistik dalam hal Model Semantik Distribusi (DSM). Model DSM σ k = R k × R k →R + (1)
bergantung pada hipotesis distribusi sambil menghitung kesamaan
Di mana,
dalam halkesamaan atribusidankesamaan relasional(Wu dan Palmer,
1994;Turney,2002). Distribusi data diwakili oleh hubungan yang terjadi Rkadalah himpunan elemen tipekDank∈KDanKterdiri dari
secara tidak terstruktur antara elemen dan konteks, di mana konteks elemen yang berbeda, yang dapat dibandingkan sehubungan
didefinisikan sebagai kolokasi leksikal dengan jarak tertentu dari dengan semantiknya danK =kata, frase, konteks, part of speech,
sebuah kata. Keterbatasan utama dari model ini adalah bahwa ia dll.
mengabaikan struktur linguistik sambil menghitung kejadian bersama Sejalan dengan definisi yang diberikan dalam Persamaan.(1), kami juga
di antara kata-kata. Hal ini mengarah pada membangun asosiasi yang mempertimbangkan dua ukuran penting, yaitu Jarak dan Kesamaan, yang
salah antara kata-kata hanya karena kata-kata tersebut muncul memungkinkan ukuran kesamaan antara persyaratan.
berdekatan satu sama lain di jendela kata dengan ukuran tertentu.
Misalnya, dalam cuplikan teks ''Baterai diganti untuk kendaraan mati'', Definisi.AJarak,D,adalah fungsi yang mewakili domain elemen,
kata ''diganti'' salah diasosiasikan dengan 'kendaraan' hanya karena yaitu persyaratan untuk membandingkan,dist:D×D→
muncul di jendela kata. Dalam model kami, ontologi domain bersama V,Di manaVadalah jarak padaDjika∀Reqi, Req
J
∈D.ItuJarak,Dmemiliki
dengan probabilitas kejadian bersama membantu kami membuang tiga sifat sebagai berikut:
asosiasi istilah yang tidak relevan. • Non-negatif,dist(PersyaratanSaya,PersyaratanJ)⪯0V
Dalam pengukuran berbasis struktur-ontologi, kemiripan antar
• Simetris,dist(PersyaratanSaya,PersyaratanJ) =dist(PersyaratanJ,PersyaratanSaya)
frase yang berbeda dihitung berdasarkan konsep dan relasi yang
diformalkan dalam ontologi. Dalam model seperti itu, jika kata-
kata dengan label semantik yang sama ditemukan di a 3https://wordnet.princeton.edu/download.

5
D. Rajpathak, PM Peranandam dan S. Ramesh Jurnal Sistem & Perangkat Lunak 186 (2022) 111211

Gambar 2.Langkah-langkah berbeda yang terlibat dalam model kesamaan semantik hierarkis.

• Refleksif,dist(PersyaratanSaya,PersyaratanSaya) = 0VDan∀Persyaratan∈D∧PersyaratanJ̸=PersyaratanSaya
J
tag n-gram, p (pos-tagSaya|n-gramSaya)', probabilitas n-gram, katakanlah n-
:dist(PersyaratanSaya,PersyaratanSaya)≺dist(PersyaratanSaya,PersyaratanJ) gramSayamemiliki tag part-of-speech tertentu, katakanlah post-tagSayadalam
dokumen persyaratan diperkirakan. Ini membantu untuk membangun
Definisi.AKesamaan, adalah fungsi,sim:D×D→V, hubungan yang benar antara n-gramSayadan post-tagnyaSaya. Semua n-gram
Di manaVadalah jarak dihitung berdasarkanD,jika∀Reqi, Req ∈ J kritis digunakan, dan informasi konteks yang terkait dengannya
D.Fungsisimmematuhi sifat yang sama terkait denganD, dikumpulkan dalam langkah,'Kumpulkan informasi konteks'. Informasi
yaitu Non-negatif, Simetris, dan Refleksiv(e. Kami berlari)k itusim ke dalam konteks dikumpulkan dari bidang kata demi kata yang dikumpulkan di'Data
tiga kategori berikut ini:1.(sim R(persamaanSaya,PersyaratanJ ) =TinggiV), lapangan'basis data. Model kesamaan semantik kami terdiri dari
Dan∀Ulang(qi,Reqj
)
∈D∧PersyaratanSaya̸=PersyaratanJDanPersyaratan simSaya,PersyaratanJ > Θ1, dalam langkah'Mesin Kemiripan Semantik Berbasis Dokumen', yang
2.(sim(PersyaratanSaya,PersyaratanJ) =LowV),Dan∀Reqi,(Persyaratan
J
∈D)∧PersyaratanSaya̸=PersyaratanJ digunakan untuk membandingkan dua persyaratan dan
DanPersyaratan simSaya,PersyaratanJ > Θ2, Dan3.(S(im ReqSaya,R)persamaanJ =TIDAKV),Dan memformalkannya menjadi model penautan persyaratan. Informasi
∀Reqi , Reqj ∈D∧PersyaratanSaya̸=PersyaratanJDanPersyaratan simSaya,PersyaratanJ> Θ3, Di manaΘ 1
konteks dihitung terlebih dahulu pada tingkat dokumen dan kemudian
(lebih besar dari 0,92),Θ2(kurang dari 0,92 tetapi lebih besar dari atau sama pada tingkat korpus. Kami adalah model kesamaan semantik hierarkis.
dengan 0,65), danΘ3(kurang dari 0,65). Nilai ambang dariΘ1,Θ2, Dan Dalam model ini, awalnya kesamaan dihitung antara istilah yang
Θ3ditentukan murni secara empiris. Akhirnya(, ketiga) peristiwa kesamaan,(yaitu (sim R) diidentifikasi dari dua dokumen persyaratan, disebut sebagaiskor
persamaanSaya,PersyaratanJ=TinggiV)∩ (Persyaratan simSaya,PersyaratanJ=LowV) semantik term-toterm, ucapkan sim(TermSaya, KetentuanJ). Setelah
∩ (Persyaratan simSaya,PersyaratanJ=TIDAKV) =φ. menghitung kemiripan antar suku unigram, selanjutnya persamaan
antara frase n-gram (yaitu yang terdiri dari banyak suku) dihitung dan
Di dalamGambar 2, kami menunjukkan berbagai langkah yang terlibat dalam
disebut sebagaiskor semantik tuple-to-tuple, ucapkan sim(TupleSaya,
pendekatan kami untuk membuat matriks penghubung persyaratan dari dokumen
TupelJ). Akhirnya,istilah ke istilahDantuple-to-tuple skor kesamaan
persyaratan mentah.
Dalam model kami, proses dimulai dengan sekumpulan dokumen semantik digabungkan untuk menghitung skor kesamaan semantik
persyaratan yang dikumpulkan dari berbagai sumber. Selama langkah,' tingkat dokumen, katakanlahskor semantik dokumen-ke-dokumen,
Identifikasi istilah-istilah penting dari setiap dokumen persyaratan'kami katakan sim(RSaya,RJ). Skor kesamaan semantik tingkat dokumen
menggunakan ontologi domain untuk mengidentifikasi istilah teknis menentukan apakah ada dua persyaratan yang dapat dihubungkan
penting (juga disebut sebagai n-gram) yang ditentukan dalam setiap satu sama lain. Skor kesamaan semantik digunakan untuk mengatur
dokumen persyaratan. Secara khusus, contoh konsep dalam ontologi tautan mereka menjadi ''Tinggi'', ''Rendah'', atau memiliki tautan
khusus domain4digunakan untuk mencocokkan istilah teknis kritis. ''Tidak'' satu sama lain. Pada langkah, 'Matriks Penautan Persyaratan',
Misalnya, kelas ontologi domain, 'Modul' mungkin memiliki contoh, matriks penautan persyaratan dihasilkan sebagai output di mana baris
seperti 'modul kontrol mesin', 'modul kontrol tangki bahan bakar', dll. mewakili persyaratan yang berbeda dan kolom menunjukkan apakah
dan contoh konsep tersebut digunakan untuk menandai istilah dalam persyaratan terkait satu sama lain.
dokumen persyaratan. Setelah mengidentifikasi istilah-istilah teknis,
pada langkah'Tandai n-gram penting dengan tag part-of-speech yang
4. Model kesamaan semantik berbasis dokumen untuk menghasilkan matriks
sesuai'frekuensi yang dinormalisasi dari setiap istilah teknis dihitung
penghubung kebutuhan
pada tingkat korpus. Istilah teknis dengan frekuensi normalisasi tinggi
disimpan sebagai istilah kritis dan tag part-of-speech diberikan
padanya, misalnya engine/NN control/NN module/NN has/VBZ Pada bagian ini, kami membahas berbagai komponen yang disertakan
internal/JJ short/JJ.5Dalam langkahnya,'Estimasi probabilitas dari dalam model kami yang digunakan untuk merekayasa matriks penghubung
persyaratan secara detail. Pertama, kita membahas ontologi domain, yang
digunakan untuk menandai istilah kritis yang dilaporkan dalam data.
4 Ontologi khusus domain ditambah secara berkala untuk memastikan istilah baru
dipelajari dari data dan untuk menghindari keusangan ontologi domain. Kemudian, datapreprocessing dibahas secara rinci yang digunakan untuk
5 Pembaca yang tertarik dapat menemukan daftar tag part of speech di sini:https:// membersihkan noise yang diamati pada data. Akhirnya, model kesamaan
www. ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html. semantik hirarkis dibahas secara rinci.

6
D. Rajpathak, PM Peranandam dan S. Ramesh Jurnal Sistem & Perangkat Lunak 186 (2022) 111211

4.1. ontologi spesifik domain prasyarat, penting untuk menentukan asosiasi yang paling relevan. Untuk
mengerem dasi, kemungkinan POS p(attern, katakanlahP)OSHaiayerlap
Ontologi domain dibangun dengan mempelajari instance kelas dari diperkirakan dengan jenis istilah yang berbeda, katakanlahP .k|POSHaiayerlap,
kumpulan dokumen persyaratan. Kerangka/Skema Deskripsi Sumber Daya Di mana.kmewakili jenis istilah yang tumpang tindih, yaituBagianSaya,Gejala
(RDF/S6) digunakan untuk memformalkan ontologi yang diekstraksi. Melalui Saya,TindakanSaya, atauPrasyaratSaya. Melalui Persamaan.(3)–(5) perhitungan
langkah-langkah yang diberikan di bawah ini, kami menjelaskan proses probabilitas pola POS yang tumpang tindih saat dikaitkan denganBagianSaya
untuk membangun sebuah ontologi dan informasi yang lebih rinci dapat ditampilkan. Perhitungan probabilitas kasus lain, seperti p(SymptomJ|POS
ditemukan di (Rajpathak,2013).
tumpang tindih), p(AksiM|POStumpang tindih), atau p(PrekondisiN|POStumpang tindih)
Langkah 1.Untuk melatih model pembelajaran ontologi, kami memilih dapat direalisasikan pada baris yang sama.
secara acak 95.000 dokumen persyaratan sebagai dataset pelatihan. Dataset
( ) P(BagianSaya∩POS Haiayerlap)
pelatihan terdiri dari berbagai jenis karakter khusus seperti yang P BagianSaya|POSHaiayerlap = (3)
ditunjukkan berikut: (\"- -.,<\\ =@ !''/''#/&%>#+?:;'_- +\\s* ).Karakter khusus ini P(POSHaiayerlap)
( )( )
dihilangkan untuk mengurangi noise pada data dan pada akhirnya P BagianSaya|POSHaiayerlap =P BagianSaya|POSHaiayerlap p (BagianSaya)

mengurangi dimensi data yang tidak diinginkan. ( )


=P BagianSaya|POSHaiayerlap P(POSHaiayerlap) (4)
Langkah 2.Setelah dokumen persyaratan dibersihkan, setiap P(BagianSaya∩POS Haiayerlap)
dokumen persyaratan diubah menjadi unigram dan tag POS P(POSHaiayerlap|BagianSaya) = (5)
P(BagianSaya)
diberikan ke setiap unigram, misalnya headlamp/NNP bulb/NNP
ditiup/NNP. Untuk menetapkan tag POS, kami menggunakan Pola POS dengan skor probabilitas tertinggi terkait dengan kelas
tagger part-of-speech Stanford (Ratnaparkhi,1996;Toutanova dan tertentu dianggap sebagai keanggotaan label kelas yang paling
Manning,2000). Dalam data kami, panjang frase kritis merentang mungkin dari pola POS yang tumpang tindih.
dari satu suku ke lima suku dan, oleh karena itu, setiap dokumen Di dalamXu dkk.(2020),Rajpathak et al.(2020) kita membahas secara
persyaratan diubah menjadi n-gram dengan panjang 1–5 n-gram detail bagaimana machine learning classifier dilatih untuk mengekstraksi
panjang, misalnya baterai/NN, lampu depan/NNP /NNP, mesin/ dan mengklasifikasikan istilah teknis dan non-teknis dalam data dan
kontrol NN/modul NN/NN, dan seterusnya. Untuk memastikan menetapkan label kelas yang paling spesifik, misalnya bagian, gejala.
bahwa n-gram yang paling benar diberi label kelas yang benar, Pengklasifikasi memungkinkan kita untuk secara otomatis mempelajari
misalnya bagian, gejala, hanya n-gram terpanjang yang diberi label
instance kelas baru dari data untuk augmentasi waktu ontologi domain.
kelas teknis, dan semua substringnya diberi label non-teknis.
Ontologi yang baru diekstraksi memiliki struktur sebagai berikut: Reqke = (C
Misalnya, jika n-gram, misalnya engine/NN control/NN module/NN
Saya, Csubkelas, Rci→cj, SAYACi). Struktur kelas keseluruhan ontologi domain
ditetapkan sebagai label kelas teknis, maka sub-gramnya, seperti
ditunjukkan padaGambar 3.
engine/NN, control/NN, module/NN, engine/NN control/NN, dan
CSayamewakili konsep kunci yang diamati dalam dokumen
modul control/NN/NN ditetapkan dengan label kelas non-teknis.
Penting untuk diingat bahwa dalam satu dokumen n-gram persyaratan, yaitu Bagian, Gejala, Tindakan,Dan
tertentu, misalnya engine/NN, Prasyarat.KonsepBagiandigunakan memformalkan berbagai modul,
submodul, sistem, subsistem, dan hingga ke komponen individual yang
terlibat dalam arsitektur kendaraan. KonsepGejaladigunakan
Langkah 3.Mengingat skala data dunia nyata, penting untuk
memformalkan berbagai gejala kesalahan yang diamati pada saat terjadi
mengidentifikasi hanya n-gram penting dari data (yang paling relevan dalam
kesalahan. Gagasan gejala sangat penting karena memberikan petunjuk
ruang teknologi). Kekritisan setiap n-gram ditentukan dengan
yang diperlukan untuk mengambil tindakan korektif yang tepat. Konsep
memperkirakan probabilitasnya. Setiap n-gram diperlakukan sebagai kueri,
Tindakandigunakan untuk memformalkan berbagai tindakan korektif yang
katakanlahQlebih dari satu set dokumen dalam korpus, katakanlahD. Sambil
dilakukan untuk memperbaiki perilaku sistem yang salah. Terakhir, konsep
memperkirakan probabilitas, kami berasumsi bahwa semua kueri n-gram, Q
dihasilkan secara independen dari data dan Persamaan.(2)digunakan untuk
Prasyaratdigunakan untuk memformalkan kondisi berbeda yang
memperkirakan probabilitas. disebutkan dalam dokumen persyaratan agar benar untuk persyaratan
∏ tertentu, misalnya 'mesin sedang berjalan,
p (q|D)≈ P(w|D) (2) dan pintu pengemudi tidak terbuka'. Di domain kami, kelas-subkelas
w∈Q hirarki, katakanlah Csubkelasdigunakan untuk memformalkan
Di mana, konsep generik dan spesifik. Dalam hierarki kelas-subkelas, konsep
P(w|D) mewakili n-gram (w) probabilitas untuk dokumenD. N- tingkat atas mewakili sekumpulan konsep umum misalnyaGejala,
gram dengan probabilitasnya di atas ambang spesifik 0,87 sedangkan konsep spesifik diformalkan oleh subclass, sepertiob-
(ditentukan secara empiris) diperlakukan sebagai yang kritis. servable_symptomDannon_observable_symptom.Kami memper-
ada konsep spesialisasigejala_yang dapat diamatike dalam gejala teks,
misalnya kebocoran, kemacetan kendaraan dan gejala kode kesalahan
Langkah 4.Setelah mengidentifikasi n-gram kritis, model kami
kesalahan, misalnya P0300. Hubungan binerRci→cjmemungkinkan kita untuk
mengkategorikan pola POS yang secara unik terkait dengan setiap
memformalkan bagaimana dua konsep dikaitkan satu sama lain. Secara
label kelas, yaitubagian POS, itugejala POS, ituPOS tindakan, danPOS
kondisi awal. Instance kelas dalam ontologi domain digunakan untuk khusus, hubungannyafaultFixedBy(BagianSayaGejalaJ)menyatakan bahwa
menandai istilah bagian, gejala, tindakan, dan prasyarat dalam data. ada bagian dan gejala yang terkait dengan bagian dalam hal kesalahan atau
Seperangkat pola POS yang secara unik dikaitkan dengan instance kegagalan. Terakhir, contoh ICidigunakan untuk mewakili objek atom
kelas ini dan probabilitasnya ditangkap sedemikian rupa sehingga spesifik domain yang dilaporkan dalam dokumen. Contoh-contoh ini
dapat digunakan untuk menandai data yang tidak terlihat. Dalam kasus diekstraksi dari data (oleh pengklasifikasi) dan digunakan untuk memberi
di mana pola POS terkait dengan dua kelas yang berbeda, misalnya contoh konsep yang berbeda dalam ontologi domain. Misalnya konsep
bagian dan gejala, atau gejala dan prasyarat, atau gejala dan tindakan, Gejaladapat dipakai dengan contoh-contohnya, seperti 'Sistem Mengunci
atau gejala dan prasyarat, atau tindakan dan Semua
Pintu', 'windowRollingUp',dan seterusnya.
6 RDFS adalah standar World Wide Web Consortium (W3C) untuk spesifikasi model Versi ontologi yang ada terdiri lebih dari 25000 bagian, 786
data Meta. tindakan, 1678 gejala, dan 973 prasyarat.
7
D. Rajpathak, PM Peranandam dan S. Ramesh Jurnal Sistem & Perangkat Lunak 186 (2022) 111211

Gambar 3.Keseluruhan struktur ontologi domain menunjukkan kelas dan subkelas penting bersama dengan hubungan antara dua kelas.

4.2. Pra-pemrosesan data (Manning dkk.,2008) digunakan untuk menangani ketidakcocokan kosakata.
Langkah-langkah yang terlibat dijelaskan di bawah ini.

Langkah 1:Algoritme mengambil sebagai input dua frasa persyaratan n-


Setiap dokumen persyaratan diproses sebelumnya dengan menghapus
gram, katakanlah FrasaSayadan FrasaJdan satu set dokumen persyaratan,
karakter khusus yang diamati dalam data seperti yang ditunjukkan berikut: misalnya RDSaya= (rd1, rd2, . . . , rdJ). Setiap dokumen persyaratan rdk
(\"- - . , <\\ =@ !''/''#/&%>#+?:;'_- + \\s*). Kata perhentian non-deskriptif, ditugaskan ke klusternya sendiri berdasarkan apakah ia melaporkan Frasa
seperti 'a', 'an', 'the' juga dihapus karena tidak menambah nilai apa pun Sayaatau FrasaJ. Pada akhir langkah ini, algoritme menghasilkan sekumpulan

pada analisis. Namun, saat menghapus kata perhentian, model kami cluster yang sama dengan jumlah dokumen persyaratan, (Crd1, Crd2, . . . , C
rdm)∈FrasaSayadan Crd1, Crd2, . . . , Crdn)∈FrasaJ;
memastikan bahwa kata-kata berhenti yang merupakan anggota dari istilah
kritis tidak dihapus. Ini membantu mempertahankan arti asli dari sebuah Langkah 2:Cluster yang dihasilkan pada Langkah 1 digabungkan
dokumen. Langkah-langkah berikut digunakan untuk memastikan bahwa berdasarkan kesamaannya satu sama lain. Cluster digabungkan
hanya kata-kata berhenti yang bukan anggota dari istilah penting yang dengan menggunakan jarak berpasangan rata-rata (Persamaan.(8))
dihitung antara objek yang merupakan anggota dari dua cluster,
dihapus:
katakanlah Cpi= (Frasa1, Frasa2, . . . , FrasaM) dan Cpj= (Frasa1, Frasa2, . . . ,
Langkah 1.Setiap cuplikan persyaratan diubah menjadi satu set panjang FrasaN). Berdasarkan jarak antar cluster, dua cluster yang paling mirip
ngram (1, 2, 3, 4, 5), yaitu (tSaya), (TSayaTJ), (TSayaTJTk), (TSayaTJTkTl), dan TSayaTJTkT digabungkan.
lTM). NCp
( ) 1 ∑SayaNCpj
∑ ( )
Langkah 2.Untuk setiap n-gram dukungannya X dalam korpus dokumen, C dihitung DCP, C P = D XSaya,yJ (8)
Saya J
NCpi ∗NCpj
dengan menggunakan Persamaan.(6): Saya=1J=1

P, yJ∈Cpj
XSaya∈CSaya
#dokumenwengan X dan C
dukungan (X, C)≡p (X, C)= (6)
total#dokumen di C Di mana, )
dxSaya,yJ,mewakili jarak Euclidian antara objekXSaya
Langkah 3.Keyakinan, X di setiap dokumen,RSaya∈R dihitung dengan ∈CpiDanyJ∈Cpjdari Cpidan Cpj, yaitu d(XSaya,yJ) = (XSaya-yJ)2.
menggunakan Persamaan.(7): NCpidan NCpj, mewakili jumlah total dokumen dalam Cpi
dan Cpjmasing-masing.
P(X, rSaya) # dokumenwengan X dan rSaya Setelah setiap iterasi, jarak antara cluster yang tersisa
percaya diri (X→RSaya)=p (rSaya|X)= = diperbarui dan proses diulang sampai ada jumlah cluster yang
P(X) total#dokumen di X
berbeda, Cpidan Cpj;
(7)
Langkah 3:Setelah menggabungkan cluster, kemiripan frase dihitung
Kata-kata berhenti yang merupakan anggota n-gram dengan untuk memeriksa apakah dua frase dapat dipertukarkan. Informasi
nilai dukungan dan kepercayaan di atas ambang tertentu, 0,90 konteks terjadi bersamaan dengan FraseSayadan FrasaJdikumpulkan
(ditentukan secara empiris) tidak dihapus. dari dokumen persyaratan yang menjadi anggota cluster, Cpidan Cpjdan
Dokumen persyaratan dihasilkan oleh pemegang saham yang ini digunakan untuk menentukan apakah kedua frasa tersebut dapat
berbeda. Karena tidak ada kosakata yang disediakan, dokumen dipertukarkan. Untuk mengumpulkan informasi konteks, posisi Frase
persyaratan terdiri dari bahasa ramping untuk menentukan konsep Sayadan FrasaJdiidentifikasi dalam setiap dokumen persyaratan dan
teknik yang sama di dua tempat berbeda, misalnya, 'Modul Kontrol jendela kata dari tiga kata7diatur di kedua sisi
Mesin' dan 'Modul Kontrol Powertrain', yang merujuk pada sistem
teknik yang sama. Referensi melingkar seperti itu harus disamarkan
7 Jendela kata adalah parameter merdu dan dapat diatur menjadi dua, tiga, dan lima
untuk menghindari referensi duplikat dalam matriks penautan kata tergantung pada panjang setiap kalimat. Dalam data kami, jendela kata dari tiga
persyaratan. Algoritma pengelompokan hierarkis agglomerative kata menghasilkan informasi konteks yang bermakna.

8
D. Rajpathak, PM Peranandam dan S. Ramesh Jurnal Sistem & Perangkat Lunak 186 (2022) 111211

Gambar 4.Pendekatan berbasis jendela kata untuk mengumpulkan informasi konteks dari dokumen persyaratan.

dari FraseSayaatau FrasaJ(Gambar 4). Istilah yang muncul dalam jendela kata Namun, tidak semua n-gram sama pentingnya dalam konteks
dikumpulkan untuk menghasilkan informasi konteks, misalnya ConFrase= persyaratan yang ditentukan. Oleh karena itu, n-gram seperti yang
(istilah1, ketentuan2, . . . , ketentuanM) dan KonFrasej= (istilah1, ketentuan2 memiliki kekritisan di atas ambang batas tertentu dalam dokumen
, . . . , ketentuanN). dipilih. Kekritisan setiap n-gram dihitung berdasarkan term
Kesamaan Jaccard (Persamaan.(9)) dihitung antara dua himpunan frequency inverse document frequency (tf*idf) (Spärck, 1972)
suku yang muncul bersamaan, misalkan ConFrasedan KonFrasejuntuk menggunakan Persamaan.(10). N-gram dengan skor tf*idf lebih
menentukan tingkat tumpang tindih dalam konteks informasi. besar dari 0,75 digunakan untuk analisis lebih lanjut.
( )
( ) |MenipuFrasaSaya
∩MenipuFrasa|J
CN−gram i, j =Caku j∗idfCi (10)
J ConFrasa, Kon
Saya
Frasej = (9)
|MenipuFrasa∪Menipu Frasa|J
Saya N
Caku j=∑aku j (11)
Kedua frasa tersebut dapat dipertukarkan jika skor kesamaan di antara kNk,j
keduanya lebih besar dari 0,89 (disetel secara empiris). Di mana,
Kami juga mengoreksi berbagai jenis suara, sepertisalah eja,
run-on-word, Danruang putih tambahan, yang dijelaskan di bawah Naku jdalam Persamaan.(11)adalah jumlah kemunculan bersama dari
ini. tupel ke-i yang muncul dalam dokumen persyaratan ke-j dan
penyebutnya adalah jumlah dari jumlah kemunculan bersama dari
Salah eja.Untuk menangani kata yang salah eja, kami
semua tupel di CSaya.
mempertimbangkan semua kemungkinan koreksi kata yang salah eja
dengan Jarak Levenshtein sama dengan 1, di mana Jarak Levenshtein log |V|
=
idfCSaya (12)
antara kata 'wSaya' dan WJ' adalah jumlah penghapusan, penyisipan, |{ay:CSaya∈ay}|
atau penggantian yang diperlukan untuk mengubah 'wSaya' di
belakangnyaJ'. Jika sebuah kata hanya membutuhkan satu koreksi, kami Di mana,
cukup mengganti kata yang salah eja dengan kata yang benar. Namun,
ketika ada beberapa kemungkinan koreksi pada sebuah kata, maka Menambahkan log ke frekuensi dokumen terbalik (idfC)dalam Saya
kata dengan skor kesamaan maksimum akan dipilih sebagai kata yang Persamaan.(12) menurunkan efek istilah frekuensi tinggi. Fungsi idf linier
dikoreksi. Skor kesamaan didefinisikan sebagai produk dari logaritma dapat meningkatkan skor dokumen dengan istilah frekuensi tinggi
frekuensi dan word2vec (Mihalcea et al.,2006) kesamaan antara kata dibandingkan dengan istilah yang memiliki frekuensi rendah. Namun,
yang salah eja dan koreksinya. fungsi sublinear (Persamaan.(12)) berperforma lebih baik jika korpus
terdiri dari suku-suku dengan frekuensi berbeda.
Jalankan kata-kata.Untuk menanganirun-on-word, yang mewakili istilah
yang muncul sebagai gabungan dari dua kata, misalnya, 'lighton', kami
Dalam model kesamaan semantik kami, kesamaan antara RSaya
memisahkan istilah tersebut menjadi bi-gram dengan menyisipkan spasi
dan RJdihitung dalam kaitannya dengan informasi konteks yang
putih di antara setiap pasangan karakter yang berdekatan. Dalam kasus run-
terkait dengan frase teknis utama, yaitu bagian, gejala, tindakan,
on Word, ucapkan 'lighton', kami mempertimbangkan kemungkinan
dan prasyarat yang diidentifikasi dengan bantuan ontologi
pemisahan berikut: 'l ighton', 'lighton', 'lig hton', 'ligh ton', 'light on', dan
domain. Informasi konteks dikumpulkan baik pada atingkat
'lighto n '. Untuk pemisahan tertentu jika potongan sisi kiri dan sisi kanan,
dokumendan atingkat korpus.
yaitu 'light' dan 'on' masing-masing ada dalam kamus maka itu dianggap
sebagai pemisahan yang benar. Jika beberapa pemisahan dimungkinkan,
5.1. Pembuatan informasi konteks pada tingkat dokumen
maka untuk setiap pemisahan yang benar, skor kesamaannya ditentukan
sebagai kesamaan maksimum word2vec antara kata run-on dan dua
Informasi konteks tingkat dokumen dikumpulkan dengan
potongan. Kata run-on dengan chuck dengan skor kesamaan maksimum
menggunakan istilah kritis (T1, T2, T3, . . . , TSaya)∈TMdan T1, T2, T3, . . . , TJ)
diganti sebagai pemisahan yang benar.
∈TNdiidentifikasi dari RSayadan RJmasing-masing. Dalam model kami,
Ruang putih tambahan.Dalam beberapa kasusruang putih informasi konteks yang terkait dengan setiap istilah kritis terdiri dari: 1.
tambahan disisipkan dalam sebuah kata, misalnya 'actu ator'. Di Istilah yang muncul bersamaan terkait dengan TMdan TNyang
sini, kami mencoba menghapus spasi tambahan untuk melihat dikualifikasikan oleh vektor tf*idf dan 2. Informasi sintaksis, seperti tag
apakah kedua kata yang salah eja menjadi kata yang benar jika parts of speech (POS) dari setiap istilah TMdan TN.
disebutkan dalam kamus referensi. Misalnya, untuk dua kata yang Untuk menghasilkan istilah yang muncul bersamaan, algoritma secara
salah eja 'aktu ator' setelah menghapus spasi, kata baru, yaitu iteratif memilih setiap istilah dari TMdan TNdan menerapkan jendela kata
'aktuator' adalah kata yang benar dan digunakan untuk mengganti istilah tertentu di kedua sisi TMdan TN(seperti yang dijelaskan dalamGambar
dua potongan yang salah. 4). Semua istilah yang muncul bersamaan dalam jendela kata dikumpulkan
dan nilai tf*idf dari setiap istilah yang dikumpulkan dihitung untuk
5. Kernel kesamaan semantik untuk membangun matriks penghubung menghasilkan vektor tf*idf, misalnya TM= (t1tf∗idf, T2tf∗idf,
persyaratan . . . , Titf∗idf) DanTN= (t1tf∗idf, T2tf∗idf, . . . , Tjtf∗idf).
Untuk menghasilkan informasi konteks sintaksis menggunakan tag parts of
Menggunakan model kesamaan semantik kami, tujuannya adalah untuk speech (POS) dari setiap istilah TMdan TN, pertama setiap istilah dalam kata demi
menentukan apakah ada persyaratan, katakanlahRSayaDanRJdari dokumen kata dianggap sebagai istilah fokus dan tag POS-nya dianggap sebagai fitur
persyaratan yang berbeda dapat dihubungkan satu sama lain berdasarkan linguistik dasar. Selanjutnya, sekumpulan istilah yang muncul bersamaan
kesamaannya. Setiap dokumen persyaratan terdiri dari beberapa frase (n- dikumpulkan dengan menggunakan jendela kata dan tag POS dari istilah yang
gram), yang dapat digunakan untuk membandingkan kesamaan. muncul bersamaan dikumpulkan. Selanjutnya, kita menghitung

9
D. Rajpathak, PM Peranandam dan S. Ramesh Jurnal Sistem & Perangkat Lunak 186 (2022) 111211

Gambar 5.Model skip-gram dilatih untuk mengumpulkan vektor word2vec untuk setiap istilah.

kemungkinanP(Tbersama−terjadi|Tmpos)DanP(Tbersama−terjadi|Tnpos)dengan menggunakan
Persamaan.(13)Dan(14).

P(Tmpos∩Tbersama−terjadi)
P(Tbersama−terjadi|Tmpos) = (13)
Tmpos
P(Tmpos∩Tbersama−terjadi)
P(Tbersama−terjadi|Tnpos) = (14)
Tmpos
Semua probabilitas digunakan, katakanlah TM= (T1bersama−terjadi, T2bersama−terjadi,
. . . , Tiko−terjadi)dan TN= (T1bersama−terjadi, T2bersama−terjadi, . . . , Tjco−terjadi)di dalam
perhitungan kemiripan. Gambar 6.Proses pembangkitan fitur konteks untuk n-gram dengan panjangnya
> 1.

5.2. Pembuatan informasi konteks pada tingkat korpus

ruang vektor n-gram sehingga mudah untuk menyimpulkan hubungan


Informasi konteks tingkat korpus dikumpulkan dalam istilah penyisipan
antara ''ECM:Kegagalan Internal sebagai Kendaraan:Propulsi
kata. Kata penyematan sangat penting karena kemampuannya untuk
Berkurang''. Oleh karena itu, dalam pendekatan kami, kami melatih
menangkap berbagai jenis konteks, seperti semantik, sintaksis, dan
model word2vec skip-gram (Mikolov dkk.,2013) untuk mengumpulkan
hubungan dari korpus. Penyematan direpresentasikan dalam bentuk vektor
lebih lanjut informasi konteks dari korpus. Model menghasilkan vektor
dari setiap n-gram. Model penyematan yang berbeda, seperti word2vec,
yang terkait dengan setiap istilah, TMdan TNdan menangkap
BERT8(Devlin et al.,2019) dan sarung tangan (Pennington dkk.,2014) yang
embeddings konteksnya. Model skip-gram memiliki sifat-sifat menarik
diusulkan dalam literatur. Di antara model-model alternatif ini, model
berikut – 1. Penyematan yang berdekatan memiliki arti yang serupa
word2vec memiliki sifat-sifat berikut yang diinginkan dalam domain kita: 1.
dan vektor konteksnya dapat digunakan dalam operasi vektor dan 2.
perpindahan vektor antara n-gram dengan hubungan serupa juga sangat
Penyematan memiliki dekomposisi semantik. Model skip-gram dilatih
mirip. Misalnya, vektor untuk ''ECM ke Powertrain'' hampir sama dengan
dengan menggunakan∼15,6 juta dokumen dan untuk membatasi
vektor untuk ''PCM ke Transmisi'', 2. Secara umum, salah satu batasan
ukuran kosa kata hanya istilah dengan frekuensi lebih dari 10.000
umum dari model word2vec adalah menyediakan konteks dengan kejadian
dalam korpus yang dipilih. Ukuran jendela kata 3 digunakan untuk
bersama yang terbatas. Namun, dalam domain kami ini dipandang sebagai
mengumpulkan informasi konteks yang terjadi bersamaan dan lapisan
keuntungan karena memungkinkan kami untuk membangun konteks yang
tersembunyi diwakili oleh matriks pembobotan dengan 10.000 baris
tepat untuk n-gram yang diamati terkait dengan kesalahan tertentu. Dengan
(satu untuk setiap n-gram dalam kosakata kita) dan 300 kolom (satu
membangun konteks cooccurrence tingkat korpus global melibatkan
untuk setiap neuron tersembunyi) , yaitu mempelajari vektor kata
informasi cooccurring yang terkait dengan kesalahan (misalnya ECM —
dengan 300 fitur. Terakhir, jika n-gram tertentu tidak diamati dalam
kegagalan internal yang mengakibatkan berkurangnya propulsi vs ECM —
data kita atau dengan frekuensi rendah vektornya diperhitungkan
internal short yang mengakibatkan kemacetan). Ini bukan properti yang
dengan menambahkan vektor kosong (0, 0, . . . , 0). Struktur model
diinginkan dalam domain kami karena mengaburkan proses isolasi
skip-gram ditunjukkan padaGambar 5.
kesalahan, dan 3. Pemetaan antara n-gram target ke informasi konteksnya
Untuk 2,3,4-gram, mereka dipecah menjadi 1-gram dan rata-rata penyisipan 1-
secara implisit menyematkan hubungan sub-linear ke dalam
gram ditambahkan sebagai vektor fiturnya seperti yang ditunjukkan pada Gambar
6.
Informasi konteks yang terkait dengan setiap RSayadan RJadalah setumpuk dokumen
8 Penulis menyadari bahwa dalam BERT penyematan kata tertentu dibangun secara dan vektor tingkat korpus seperti yang ditunjukkan padaGambar 7.
dinamis tergantung pada konteks di mana kata tersebut disebutkan. Di sisi lain,
Tingkat dokumen dan informasi konteks tingkat korpus yang
embedding bersifat statis dalam model word2vec. Gagasan adaptasi konteks dinamis
bekerja dengan baik pada tugas-tugas seperti menjawab pertanyaan, antarmuka bahasa
terkait dengan RSayadan RJdisusun menjadi dua matriks konteks,
alami, terjemahan mesin, dll. Namun, saat bekerja di domain kami, sangat penting untuk CMRi= ((TMBagianSaya), (TMGejalaJ), (TMTindakank)) dan CMRj= ((TN
mempertahankan vektor konteks sebanding yang dibangun dari data yang dikumpulkan Bagianl), (TNGejalaM), (TNTindakanN)) masing-masing. CMRidan CMRj
dari satu tahun model. ke model tahun lainnya. Word2vec memungkinkan vektor konteks digunakan untuk menghitung skor antara RSayadan RJ. Awalnya, model
yang dapat dibandingkan karena dibangun dari n-gram (umum) yang diamati dalam
menghitung akesamaan semantik term-to-termskor untuk frase dengan
data. Penyematan dinamis BERT memberikan wawasan terbatas tentang n-gram (umum)
yang terkait dengan persyaratan khusus dari satu data tahun model ke data tahun hanya satu istilah dengan menggunakan Persamaan.(15).
lainnya.

10
D. Rajpathak, PM Peranandam dan S. Ramesh Jurnal Sistem & Perangkat Lunak 186 (2022) 111211

Itudokumen-ke-dokumenskor kesamaan semantik antara RSaya


dan RJdigunakan untuk menentukan apakah dua persyaratan, RSayadan RJdapat
dihubungkan satu sama lain. Dua persyaratan berdasarkan skor mereka diurutkan
ke dalam salah satu dari tiga kategori, yaitutautan tinggi, tautan rendah, atautidak
ada hubunganmenggunakan aturan berikut:

Aturan 1.Jika skor kesamaan semantik antara RSayadan RJsama atau


lebih besar dari 0,70,9lalu RSayadan RJdikatakan memiliki hubungan
yang tinggi satu sama lain.
Aturan 2.Jika skor kesamaan semantik antara RSayadan RJ
lebih besar dari 0,4, tetapi kurang dari 0,70, maka RSayadan RJ
dikatakan memiliki link rendah satu sama lain.
Aturan 3.Jika skor kesamaan semantik antara RSayadan RJ
Gambar 7.Vektor konteks tingkat dokumen dan tingkat korpus yang ditumpuk terkait dengan kurang dari atau sama dengan 0,4, maka RSayadan RJdikatakan tidak
persyaratan.
memiliki hubungan satu sama lain.

6. Eksperimen dan diskusi


{ 2
}
hit(Istilah,Saya
IstilahJ) Model kesamaan semantik kami diimplementasikan sebagai
sim(KetentuanSaya,KetentuanJ) =catatan2 1+ (15)
hits (istilahSaya) .hit(KetentuanJ) alat pembuktian konsep pada Jenis OS: Microsoft Windows XP
Professional, Ukuran memori: 3,5 GB, Prosesor: Intel[R] Core[TM]2
Di mana,
i7-4810MQ CPU @ 2,80 GHz. Untuk mengevaluasi kinerja model
hit(KetentuanSaya),hit(KetentuanJ) Danhit(KetentuanSaya, KetentuanJ) kami, kami melakukan serangkaian percobaan dengan
adalah jumlah kali TermSayadan IstilahJdan tuple biner (TermSaya, menggunakan data yang terkait dengan persyaratan sub-sistem
KetentuanJ) muncul bersamaan di CMRidan CMRj.S "Entry Control" yang dihasilkan selama tahap awal pengembangan
sistem. Secara total 126.000 persyaratan terkait dengan berbagai
Setelah menghitungkesamaan istilah ke istilahskor, itukesamaan sub-sistem Kontrol Masuk, seperti Transmisi Bergeser ke Taman,
semantik tupleto-tupleskor, ucapkan sim(TupleSaya, TupelJ) dihitung Transmisi Bergeser Keluar dari Taman, Permintaan Pengalihan
untuk frase dengan lebih dari satu istilah dengan menggunakan Kesopanan, 'Penguncian Jarak Jauh, Pintu Tertutup dan Terbuka'',
Persamaan.(16). Itukesamaan semantik tuple-to-tuplememperluas ''Mengunci Ulang Tanpa Pintu Terbuka'', ''Airbag Dikerahkan'',
model PMI-IR standar dengan membuat perubahan berikut: (1) suku ''Pintu Pengemudi Jarak Jauh Hanya Membuka Kunci'', ''Membuka
kuadrat ditambahkan di pembilang bersama dengan penambahan satu Kunci Semua Pintu Jarak Jauh'', ''Masukkan Pengapian'', ''Lepaskan
ke pecahan. Keduanya dimotivasi oleh kebutuhan untuk menskalakan Kunci dari Pengapian'',
ukuran antara nol (tupel tidak pernah terjadi bersamaan) dan satu
(tupel identik atau tupel selalu terjadi bersamaan) dan (2) frase multi- 6.1. Perbandingan dengan pendekatan alternatif
istilah digunakan saat menghitung skor antara RSayadan RJ
alih-alih hanya menggunakan frase kata tunggal (sebagaimana ditentukan dalam
Di sini, kami membandingkan model kami dengan pendekatan
PMI-IR standar) dan mempertimbangkan informasi konteks untuk mendapatkan
alternatif yang diusulkan dalam literatur, seperti Vector Space Model
perkiraan yang lebih baik.
(VSM), Latent Semantic Indexing (LSI), perbandingan semantik
{ }
hit(TupelSayaTupelJ) 2 berpasangan, model Kesamaan Semantik (Zesch dan Gurevych,2007)
sim(TupelSaya,TupelJ) =catatan21 + (16) dan model PMI. Kami menerapkan model kami serta model dalam
hits (TupleSaya) .hit(TupelJ)
literatur pada serangkaian persyaratan yang sama untuk
Di mana, membandingkan kinerjanya satu sama lain.Tabel 1menunjukkan
rincian data yang digunakan untuk evaluasi ini.
hit(TupelSaya),hit(TupelJ) mewakili frekuensi kemunculan tupel
Semua persyaratan dalam kumpulan data telah diproses
dalam korpus. Ituhit(TupelSaya& TupelJ) mewakili berapa kali
sebelumnya untuk menghilangkan kebisingan. Tf*idf dari setiap suku
kedua TupleSayadan TupelJterjadi dalam korpus.
dihitung dan disusun menjadi vektor. Vektor ini digunakan untuk
menghitung kesamaan cosinus antara dua persyaratan untuk
Akhirnya,istilah ke istilahDantuple-to-tupleskor kesamaan menentukan di mana mereka mirip satu sama lain. Di LSI, pertama
semantik digabungkan untuk menghitung finaldokumen-ke- istilah matriks dokumen, (katakanlahA)dibangun dan diuraikan untuk
dokumen skor kesamaan semantik antara RJ(Persamaan.(17)).
Sayadan R
menemukan dua matriks ortogonal,ASDanVdan matriks diagonal,S.
⎡ (∑ )⎤ Selanjutnya, Perkiraan Peringkat-2 diimplementasikan dengan
Tupel Saya∈Ri (maxsim(Tupel Saya,Rj).idf(Tuplei)) mempertahankan dua kolom pertama dariASDanVdan baris dariS.

⎢ (
F Tuplei) ⎥ Barisan ruang 2 dimensi tereduksi menyimpan nilai vektor eigen untuk
( ) 1⎢ Tuplei∈R Saya
pengenal


sim RSaya,RJ =⎢ + )⎥⎦ (17) mewakili koordinat dari setiap dokumen kebutuhan individu. Akhirnya,
2⎣ ( ∑
(
(
Tuplej∈R M axsim Tupel J,ri).idf(Domba jantan lej)) kesamaan antara dua persyaratan dihitung dengan menggunakan
J∑
Tupel J∈RJ Saya
df Tuplej ( ) kesamaan kosinus. Kemiripan antara dua dokumen dengan
( ) menggunakan model kesamaan semantik berpasangan dihitung
Itumaxsim TupleSaya,RJ fungsi dalam Persamaan.(17)dihitung dengan menggunakan dengan menggabungkan kemiripan semantik dari konsep-konsep yang
Persamaan.(18). Dalam Persamaan.(18)kami memilih maksimum (maksJ) terlibat di dalamnya. Awalnya, daftar dokumen yang mengandung
kesamaan semantik antara dua tupel. Dengan kata lain, algoritma secara istilah (t) diidentifikasi dan kemudian indeks terbalik standar dibangun.
iteratif membandingkan setiap TupleSayadengan setiap tupel lainnya,tupelJ∈ Tupel kunci yang sesuai dengan pasangannya adalah
RJ. Dalam perbandingan berpasangan, pasangan dengan nilai tertinggi (diwakili
sebagai,maksJdalam Persamaan.(18)) kesamaan semantik dipilih.
( ) { } 9 Dalam pendekatan kami, kami melakukan serangkaian eksperimen bersama dengan subjek
maxsim TupleSaya,RJ=maksJsim(TupelSaya,tupelJ) ;tupelJ∈RJ (18) ahli materi (UKM) untuk menentukan nilai ambang optimal.

11
D. Rajpathak, PM Peranandam dan S. Ramesh Jurnal Sistem & Perangkat Lunak 186 (2022) 111211

Tabel 1
Data digunakan untuk mengevaluasi model kami dengan pendekatan alternatif.
Himpunan data Jumlah persyaratan Sistem - Subsistem
(dalam ribuan)
Dataset1 (d1) 42 Transmisi Digeser ke Taman, Transmisi Digeser Keluar dari Taman, Permintaan
Sakelar Kehormatan, Penguncian Jarak Jauh

Dataset2 (d2) 42 Pintu Tertutup dan Terbuka, Penguncian Ulang Tanpa Pintu Terbuka, Kantung Udara
Dikerahkan, Pintu Pengemudi Jarak Jauh Hanya Membuka Kunci

Dataset3 (d3) 42 Remote Membuka Kunci Semua Pintu, Kunci Pengapian, Lepaskan Kunci dari
Pengapian, Tekan dan Tahan Terus-Menerus dari Silinder Kunci

Gambar 8.Perbandingan antara model kami dengan VSM, LSI, kesamaan semantik, Berpasangan, dan PMI.

diidentifikasi dan Persamaan.(19)digunakan untuk menghitung kesamaan dua persyaratan berikut menyajikan informasi teknik yang sama, tetapi
berpasangan antara dua persyaratan. menggunakan kosakata yang berbeda,R1.Mode daya sistem RUN, modul
( )∑ kontrol mesin bekerja, pedal rem dan gigi transmisi tidak diparkir, ADL
sim dSaya,DJ = Pasangant,d.Pasangant, dj
Saya
(19) diaktifkan. Operator mengeluarkan permintaan buka kunci kesopanan.
T∈V Setidaknya satu pintu dibuka. Pedal rem dilepas dan sistem mengunci
semua pintu;R2.Setidaknya satu pintu terbuka dan kuncinya ada di kunci
Akhirnya,Zesch dan Gurevych(2007) mengusulkan model di mana
kontak. Operator mengeluarkan permintaan buka kunci agar sistem
kesamaan semantik antara dokumen persyaratan dihitung
menonaktifkan anti-lock. Dalam model kami, kami berhasil mengatasi
berdasarkan jumlah kategori yang ditetapkan untuk setiap dokumen
batasan ini dengan mengeksploitasi informasi konteks yang ditentukan
persyaratan. Nilai terbaik di antara semua pasangan dipilih
dalam dokumen bersama dengan ontologi domain. Seperti yang dapat
berdasarkan minimum untuk jalur dan maksimum untuk konten
dilihat diGambar 8, hasil dari model Berpasangan sebanding, tetapi tidak
informasi. Hasil percobaan ini dipresentasikan kepada UKM yang pada
sebagus hasil yang dicapai oleh model kami. Alasan utama di balik ini adalah
gilirannya menyatakan kesamaan sebenarnya antara persyaratan. Di
bahwa model Berpasangan bergantung pada pengidentifikasian
dalamGambar 4, kami menunjukkan analisis komparatif kesamaan
sekumpulan dokumen yang berisi pasangan istilah umum untuk
semantik yang dihitung dengan model kami, VSM, LSI, model
menghitung matriks semantik berpasangan, tetapi konteksnya dalam
berpasangan, model keterkaitan semantik, dan model PMI untuk
dokumen yang diberikan tidak teridentifikasi. Akhirnya, hasil model PMI
melihat apakah persyaratan terkait satu sama lain.
sebanding dengan model kami di kumpulan data 2 dan 3, tetapi model kami
Seperti yang dapat dilihat diGambar 8, kesalahan rata-rata model kami
bekerja lebih baik di kumpulan data 1. Di kumpulan data 1, model PMI
adalah yang terendah di ketiga kumpulan data dibandingkan dengan model
mempertimbangkan semua istilah yang muncul bersamaan dengan frase
canggih. Hasil analisis yang lebih dekat mengungkapkan bahwa VSM, LSI,
kritis dalam jendela kata tertentu . Tidak semua istilah yang muncul
keterkaitan semantik, dan model Berpasangan tidak mempertimbangkan
bersamaan dalam jendela kata tertentu memiliki hubungan langsung
konteks yang terkait dengan istilah kritis. Oleh karena itu, model-model ini
dengan frase kritis dan itu menimbulkan gangguan dalam perhitungan
akhirnya hilang dalam menghubungkan persyaratan utama. Salah satu
kesamaan semantik. Untuk memastikan bahwa istilah yang muncul
batasan utama dari model ini adalah bahwa istilah kunci dari dua dokumen
bersamaan dipilih untuk perhitungan kesamaan semantik, kami
persyaratan membutuhkan pencocokan yang tepat untuk mendapatkan
menggunakan ontologi domain. Ontologi membantu kami dalam memilih
skor kesamaan semantik yang tinggi. Namun, dalam data kehidupan nyata
istilah cooccurring yang relevan dan membantu meningkatkan perhitungan
apa pun, sulit untuk mengontrol kosakata yang digunakan oleh pemangku
kesamaan semantik.
kepentingan yang berbeda dan penting untuk mengidentifikasi banyak arti
dari kata yang sama dengan mengeksploitasi konteksnya. Misalnya,

12
D. Rajpathak, PM Peranandam dan S. Ramesh Jurnal Sistem & Perangkat Lunak 186 (2022) 111211

Gambar 9.Perbandingan model kami dengan model lain menggunakan presisi, penarikan kembali, dan pengukuran-f.

Kami juga mengevaluasi kinerja model kami dengan model lain Selanjutnya, kami mengevaluasi keakuratan algoritma ekstraksi istilah
dengan menggunakan ukuran, seperti presisi, daya ingat, dan skor dengan meminta UKM untuk mengklasifikasikan istilah ini sebagai True
F1 (Gambar 9). Titik pertama pada setiap baris mewakili kinerja Positives (tp), yaitu istilah yang diklasifikasikan dengan benar ke dalam kelas
model kami dan titik-titik lainnya secara berurutan mewakili kinerja spesifiknya, yaitu bagian, gejala, tindakan, dll., True Negatives (tn), yaitu alat
VSM, LSI, model berpasangan, keterkaitan semantik, dan PMI. dengan benar menolak istilah yang bukan milik kelasnya sendiri, Positif
Seperti yang dapat dilihat pada set data 1, 2, dan 3, presisi rata- Palsu (fp), yaitu istilah yang diklasifikasikan oleh alat ke dalam kelas tertentu
rata model kami lebih tinggi daripada model lain kecuali untuk yang gagal dicocokkan dengan klasifikasi SME, dan Negatif Palsu (fn), yaitu
model PMI, tetapi di ketiga set data model kami mengungguli alat tersebut menolak persyaratan sebagai kandidat tanpa keanggotaan
semua model lain dalam hal penarikan rata-rata. Dengan kata lain, untuk kelas tertentu sementara UKM mengklasifikasikan istilah tersebut ke
model kami berhasil menghubungkan persyaratan tambahan, dalam kelas tersebut. Selanjutnya, Precision, Recall, dan F1 (F-Measure)
yang gagal ditautkan oleh model lain. Hasil model PMI dapat didefinisikan dalam Persamaan.(20),(21), Dan(22)telah dipakai.
dibandingkan dengan mode kami, tetapi dalam beberapa kasus
Positi Sejatiayes
dalam data kami ketika frase terdiri dari lebih dari tiga istilah Presisi= (20)
dalam kasus seperti itu, model PMI melebih-lebihkan istilah (Positi Sejatiayes+Positif Palsuayes)
frekuensi rendah tersebut. Positi Sejatiayes
Mengingat= (21)
(Positi Sejatiayes+Negatif Palsuayes) (

6.2. Evaluasi ontologi spesifik domain Presisi∗Mengingat)


F1 = 2∗ (22)
(Presisi+Mengingat)
Di sini, kami mengevaluasi kinerja ontologi khusus domain (Bagian Di dalamGambar 10, kami menunjukkan ringkasan percobaan
4.1) untuk melihat seberapa baik tag tersebut menandai istilah penting evaluasi ontologi dalam hal Precision (0,72), Recall (0,75), dan skor
yang ditentukan dalam data. Secara total, 124 dokumen persyaratan F-Measure (0,73).
dipilih secara acak untuk sistem ''Entry Controls''.
Pada rangkaian eksperimen pertama, istilah kritis dari semua
124 persyaratan diberi tag secara manual oleh para ahli materi 6.3. Ketepatan persyaratan terkait
pelajaran (UKM). Kumpulan dokumen yang sama diberikan sebagai
masukan untuk algoritme identifikasi istilah kunci kami, yang Dalam percobaan ini, kami mengevaluasi kebenaran tautan yang dibuat oleh
menandai dan mengekstraksi istilah penting dari data. Hasil algoritme kami di antara persyaratan yang berbeda. Untuk mengembangkan
algoritme kami dibandingkan dengan anotasi manual yang tolok ukur, kami secara acak memilih serangkaian persyaratan dan UKM secara
dilakukan oleh UKM. Hasilnya diberikan diMeja 2. Algoritme kami manual menautkan persyaratan tersebut. UKM mengidentifikasi dan menangkap
mengidentifikasi 13 bagian tambahan (P), 14 gejala tambahan (SY), total 126 tautan dalam matriks dan mengklasifikasikannya ke dalam kategori ''Ya/
dan lima tindakan tambahan (A), yang gagal diidentifikasi oleh Tidak'' tergantung pada apakah ada tautan antara persyaratan atau tidak.
UKM selama proses anotasi manual mereka. Serangkaian persyaratan yang sama

13
D. Rajpathak, PM Peranandam dan S. Ramesh Jurnal Sistem & Perangkat Lunak 186 (2022) 111211

Meja 2
Rangkuman hasil istilah yang diidentifikasi oleh pakar materi pelajaran versus istilah yang diidentifikasi oleh alat kami.
P P sy sy (Alat) A A
(UKM) (Alat) (UKM) (UKM) (Alat)
89 102 57 71 31 36

Bagian baru diidentifikasi oleh alat Gejala baru diidentifikasi oleh alat Tindakan baru diidentifikasi oleh alat

13 14 5

dan "Penyebaran Kantung Udara" jelas milik dua negara bagian yang
berbeda karena kedua persyaratan ini berurusan dengan dua fungsi
independen. Sepele, persyaratan yang sangat terkait dipelajari untuk
memeriksa masalah konsistensi mereka. Studi menyeluruh diperlukan
karena persyaratan yang sangat terkait biasanya milik ruang sub-
negara fungsional yang sama, sedangkan persyaratan terkait rendah
biasanya milik negara yang berbeda yang mungkin atau mungkin tidak
berada di ruang fungsional yang sama dan berbagi bagian yang sama.
Dalam eksperimen ini, kami telah mempertimbangkan 39 tautan
dari 126 tautan yang ditautkan sebagai "Ya" dan menerima tingkat
tautan oleh UKM. Ringkasan tautan yang diidentifikasi oleh pendekatan
kami sehubungan dengan tautan yang diidentifikasi oleh UKM
ditampilkan diTabel 3. Kasus ''Benar Positif'' didefinisikan sebagai
tingkat dan derajat keterkaitan yang sama dengan derajat keterkaitan
Gambar 10.Evaluasi algoritma ontologi domain dan term ekstraksi dalam hal presisi, UKM, yaitu, ''Rendah'' atau ''Tinggi''. Kasus ''Positif Palsu'' didefinisikan
recall, dan f-measure. sebagai tingkat penautan yang lebih tinggi dibandingkan dengan
penautan UKM, yaitu, ''Rendah'' hingga ''Tinggi''. Dengan kata lain,
penautan yang dihasilkan oleh alat mengatakan ''Tinggi'', tetapi UKM
disediakan sebagai input ke algoritme kami untuk menghasilkan menyebutkannya sebagai ''Rendah''. Jelas, dalam percobaan ini tidak
tautan otomatis di antara mereka dalam sebuah matriks. ada kasus ''Negatif Benar'' dan Negatif Palsu'' karena kasus tersebut
Persyaratan dikatakan mirip satu sama lain, yaitu ''Ya'' jika skornya telah dipertimbangkan dalam percobaan sebelumnya (Percobaan 2).
lebih besar atau sama dengan 0,4 dan jika skornya kurang dari 0,4 Dari 39 tautan, alat tersebut mengklasifikasikan 20 tautan memiliki
maka diberi tanda tidak mirip, yaitu ''Tidak'.Gambar. 11Dan12 tingkat tautan 'Rendah', yang cocok dengan tautan yang diidentifikasi
menunjukkan bagian penting dari matriks hasil oleh SME dan alat oleh UKM. Dalam lima kasus, alat tersebut salah mengklasifikasikan
masing-masing. Kolom pertama dan baris pertama menunjukkan tautan sebagai tautan "Tinggi", ketika UKM menautkannya sebagai
ID unik persyaratan. tautan "Rendah". Namun, Tabel 4menampilkan rangkuman hasil
Analisis hasil yang dihasilkan oleh algoritme jika dibandingkan percobaan.
dengan penautan UKM mengungkapkan bahwa lebih dari 84% Berdasarkan 2×2 meja (Tabel 4) kami telah menghitung ukuran Presisi,
penautan persyaratan yang dihasilkan oleh alat tersebut akurat dengan Ingat, dan F1 sebagaimana didefinisikan dalam Persamaan.(20),(21), Dan
yang diidentifikasi oleh UKM. Dengan kata lain, 106 tautan dari 126 (22)telah dipakai. Rata-rata Presisi adalah 0,87, Recall adalah 1 dan F1-
tautan dihasilkan oleh alat yang cocok dengan tautan SME, yaitu True Measure adalah 0,93. Pada akhir percobaan 1 dan 2, kami menyadari bahwa
Positive dan True Negative. Di sisa∼16% dari kasus keputusan UKM sekitar 70% perbandingan menghasilkan kategori tanpa tautan dan sekitar
adalah tautan "Tidak", sedangkan alat yang diidentifikasi sebagai 30% perbandingan menghasilkan persyaratan yang terhubung dengan
tautan "Ya", yaitu tautan "Positif Palsu". Kasus positif palsu ini disorot tingkat tautan yang berbeda. Biasanya, dalam kasus penautan manual di
Gambar. 11Dan12. Yang paling penting, tidak ada kasus di mana alat mana rata-rata 70% kasus tidak memiliki tautan, ini menjadi proses yang
menghubungkan persyaratan sebagai link ''Tidak'', sementara SME membosankan dan melelahkan. Juga, ada kemungkinan besar bahwa
menautkannya sebagai link ''Ya'', yaitu tidak ada link ''Negatif Palsu''. peninjau manusia dapat menyatakan persyaratan yang ditautkan sebagai
persyaratan yang tidak ditautkan karena kelelahan dan sifat tautan yang
monoton. Rangkaian eksperimen ketiga dilakukan untuk memvalidasi
6.4. Keakuratan tingkat hubungan antara persyaratan
asumsi kami guna mengungkapkan perlunya alat penautan otomatis.

Di sini, kami menjelaskan validasi pendekatan kami dalam


mengklasifikasikan persyaratan dengan benar dengan kategori 'Tinggi' atau
'Rendah' dari level tautan. Sekali lagi, kategorisasi yang dilakukan oleh UKM 6.5. Keuntungan menghubungkan persyaratan secara otomatis

dianggap sebagai tolok ukur. Dalam percobaan ini, hanya dua kategori
tautan yang digunakan karena dua persyaratan apa pun dapat berada di Dalam percobaan ini, kami mencoba dua pendekatan berbeda
ruang sub-status dari fungsionalitas yang sama atau status berbeda yang untuk penautan manual. Pada pendekatan pertama, kami telah
mungkin atau mungkin tidak berada dalam ruang status fungsionalitas yang menyediakan UKM dengan dokumen persyaratan dan eksperimennya
sama. Misalnya, persyaratan "Tekanan Selanjutnya dari Peralihan adalah tentang studi tentang tautan 'positif palsu' sehubungan dengan
Kehormatan" dan "Penguncian Jarak Jauh" berkaitan dengan fungsionalitas tautan yang dihasilkan oleh UKM. Awalnya, UKM mengembangkan
"Penguncian" dan kedua persyaratan ini memiliki prasyarat yang sama, model mental persyaratan dengan menghubungkan setiap persyaratan
kecuali bahwa dalam persyaratan sebelumnya disebutkan bahwa "di baru dengan semua persyaratan terkait sebelumnya. Dengan kira-kira
setidaknya satu pintu terbuka'' dan persyaratan terakhir menyebutkan lima persyaratan per halaman, mental linking matrix dengan cepat
bahwa ''pintu pengemudi terbuka''. Dengan prasyarat ini, persyaratan yang menjadi sulit ditangani oleh UKM dalam beberapa halaman pertama
terakhir jelas termasuk dalam sub-kondisi dari persyaratan sebelumnya dokumen. Kesulitan meningkat secara linier ke jumlah persyaratan
karena pintu pengemudi hadir sebagai subsistem dari perakitan sistem yang ditinjau. Dalam proses ini, fokus dan keefektifan tinjauan
pintu dalam arsitektur kendaraan. Sedangkan persyaratan ''Tonneau berkurang secara eksponensial. Ada beberapa kasus yang diidentifikasi
Release - Interior Release'' di mana UKM ditandai

14
D. Rajpathak, PM Peranandam dan S. Ramesh Jurnal Sistem & Perangkat Lunak 186 (2022) 111211

Gambar 11.Cuplikan matriks penautan persyaratan yang dibuat oleh pakar materi pelajaran.

Gambar 12.Cuplikan matriks penautan persyaratan yang dihasilkan oleh model.

Tabel 3
Tingkat ringkasan tautan yang dihasilkan oleh alat kami dibandingkan dengan penautan UKM.
Detail Level Tautan SME = L Level Tautan SME = H
Total Tautan = 25 Total Tautan = 14
Rentang Tumpang Tindih = 40% < OL <= 70% Rentang Tumpang Tindih = 70% < OL <= 100%

Benar-benar positif 20 14
Positif palsu 5 0

Tabel 4
Ringkasan dari 2×2 tabel penautan persyaratan.
Positif palsu = tingkat hubungan antara alat dengan persyaratan bervariasi dari tingkat hubungan SME Negatif palsu = alat 5
menolak persyaratan sebagai tautan "Tidak" di mana SME menautkannya 0
True positive = alat menautkan persyaratan dengan level yang sama dengan SME True 34
negative = alat menolak persyaratan sebagai tautan "Tidak" sama dengan SME 0

kedua persyaratan tersebut tidak memiliki tautan, sedangkan alat menandainya dibandingkan dengan persyaratan lain dari halaman yang berbeda.
sebagai tautan.Gambar 13mencerminkan model mental parsial dari Misalnya, diGambar 14apersyaratan #3.1 sangat terkait dengan
SAKU fr Hai M fi Rst kira-kira Ach. Tpersyaratan #2.2 dan #2.3, sedangkan persyaratan yang sama
SAYA
nt Hes emenipu d approa ch si S ME were sebagai ked Toi dentify A Sberintikan tautan rendah dengan persyaratan #4.1, #4.2, dan #4.3.
s kecil et dari re Quirements dan Hai hanya Those re Quirepria Taw sebelum NPerhatikan bahwa persyaratan ini tersebar di beberapa halaman
mpared dengan semua lainnya memerlukan Menmasuk sebagaipersamaan
bersama uential MsebuahNeh. Hai
dokumen. Angka ini menunjukkan banyak fokus yang jelas di
Perbandingan ini dilakukan secara iteratif untuk semua himpunan yang terbentuk proses peninjauan melalui tautan informasi yang konsisten di
oleh SMEM
S. e bijih efektive res kamu Itu dulu meraih D di dalamTmiliknya AP- Ssetiap halaman.
proach Karena hanya pada e set dari memerlukan Ment wer ec ompaRed Namun, bahkan pendekatan ini pada akhirnya menyebabkan kelelahan
wiTH theo thers sebuahD itu Rsebelum th e focuS w sebagaiMuh bertaruhTerw engan diakarena sifat iteratif dan karena persyaratan membentang di sejumlah
minimi zed diffi Culty dan ted Saya
keburukan dalam hal dari t dia b Ack l besar halaman (sekitar 100 halaman). Model yang baru diusulkan berhasil
dan untuk th melintasi bernyanyi t Hdan dokumen Ment.Ara S. 14asebuah D 14bsho ws menangani semua persyaratan dalam satu lintasan tanpa kehilangan
menghubungkan melakukan ed oleh UKM untuk R dua suc h himpunan r equireme nts informasi apa pun. Misalnya, di salah satu mobil tersebut

15
D. Rajpathak, PM Peranandam dan S. Ramesh Jurnal Sistem & Perangkat Lunak 186 (2022) 111211

Gambar 13.Model mental parsial ahli materi pelajaran Pendekatan 1.

diklasifikasikan sebagai memiliki ''Tinggi'', ''Rendah'' atau Tanpa Tautan'' di


antara mereka. Metodologi kami membebaskan peninjau dari membuat dan
memperbarui model mental dengan membaca dokumen persyaratan yang
panjang secara manual. Ini pada gilirannya memastikan bahwa liputan
lengkap tercapai tanpa harus khawatir tentang kelelahan mental yang
terlibat dalam proses peninjauan manual. Manfaat sampingan, tetapi juga
keuntungan utama dari alat ini adalah menyediakan kemandirian waktu.
Dengan kata lain, peninjau dapat membagi proses peninjauan dari waktu ke
waktu karena dia tidak diharuskan untuk menjaga model mental tetap hidup
saat meninjau, karena alat tersebut menyediakan pemetaan. Alat kami
digunakan sebagai prototipe dan kinerjanya telah memastikan kegunaannya
saat digunakan oleh UKM yang berbeda.
Gambar 14a.Contoh model mental UKM Pendekatan 2.
Di masa depan, tujuan kami adalah untuk memperluas kerangka ini
di mana frase multi-istilah akan dibangun secara otomatis dari
dokumen persyaratan yang ditulis tidak hanya dalam bahasa Inggris,
tetapi juga dalam bahasa Spanyol, Korea, dan Cina. Selain itu, kami
juga bertujuan untuk memperoleh ontologi secara otomatis dari kode
perangkat lunak sedemikian rupa sehingga pemeriksaan konsistensi
antara dokumen persyaratan yang berbeda dan antara persyaratan
dan perangkat lunak yang sesuai dapat dilakukan secara otomatis.

Pernyataan kontribusi kepengarangan CRedit

Dnyanesh Rajpathak:Konseptualisasi, Metodologi, Perangkat


Gambar 14b.Contoh model mental UKM Pendekatan 2. Lunak, Investigasi, Validasi, Penulisan – draf asli, Penulisan
– meninjau & mengedit.Prakash M. Peranandam:Konseptualisasi,
Metodologi, Perangkat Lunak, Investigasi, Validasi, Penulisan – draf asli,
menautkan contoh, dua persyaratan berbeda yang disebutkan di Penulisan – tinjauan & penyuntingan.S. Ramesh:Penulisan – draf asli,
halaman 16 (berbicara tentang ''Door Locking'') dan di halaman 26 Penulisan – tinjauan & penyuntingan, Pengawasan.
(berbicara tentang ''Door Un-Locking''), yang ditandai oleh alat tersebut
memiliki Tautan 'rendah', sementara UKM menandai mereka memiliki Deklarasi kepentingan bersaing
''NHai
- Lin k''. W induk ayamseperti persyaratan
kamu
irements w sebelum presetertagih ke tHe SMEs
ac ritik Aaku lin k wa S ideNtifie D bertaruhw een ini e tw Hai kamu
persyaratan MentS.
kemarahan
Para penulis menyatakan bahwa mereka tidak memiliki kepentingan
Ckeuangan atau hubungan pribadi yang bersaing yang dapat muncul untuk
7. Menipu ClusiHai
n and fuTure bekerja Tmempengaruhi pekerjaan yang dilaporkan dalam makalah ini.
Di t Hadalah halaper, Kamimemiliki cakram kamu
ssed sebuah novel perkiraan Hai
ach dari l tinta-
ing TDiaunstructumerah TextuAaku butuh kamu MentS untuk sayamprHai
kemarahan ved persyaratankemarahan- Terima kasih
Saya nts Dan efekctive Sseringw adalah DevelHai PMent ProceSsu Sing itu
seMsemut Saya
c si Milari ty m odel. Kita Model m Akes menggunakan Hai
f th e Mkamu ini- Penulis mengucapkan terima kasih kepada Dr. John Cafeo, Dr.
phRase termdte S Saya
eN jika
Saya
d fr Haimd jika fer nt r equirepria t lakukan Cuments Jonathan Owen, dan komite peninjau publikasi GM atas saran dan
N TDiase terms a kembali kamike comPute Tdia s aku
iklan ilaRity s Cbijih Between Sumpan balik mereka yang berharga, yang membantu meningkatkan
ted
H iffehent req uireMentS. Ac bersama rdiNterbang, itu membutuhkan
rements adalah Hai
kualitas makalah ini.

16
D. Rajpathak, PM Peranandam dan S. Ramesh Jurnal Sistem & Perangkat Lunak 186 (2022) 111211

Referensi Lormans, M., Deursen, AV, 2005. Merekonstruksi tampilan cakupan persyaratan
dari desain dan pengujian menggunakan pemulihan ketertelusuran melalui LSI. Di dalam: Prok. dari

Abadi, A., Nisenson, M., Simionovici, Y., 2008. Teknik ketertelusuran untuk Inter ke-3. Lokakarya tentang Jejak. Di Emerg. Bentuk Lembut. Inggris Pantai Panjang, California.

spesifikasi, Dalam: Dalam Proc. dari Inter ke-16. Konf. pada Prog. Kompres, Vol. 10,
hlm. 3–112. Mahmoud, A., Niu, N., 2015. Tentang peran semantik dalam persyaratan otomatis
Apostu, S., Burkacky, O., Deichmann, J., Doll, G., 2005. Perangkat Lunak Otomotif pelacakan. Memerlukan. Eng. 20, 281–300.

dan Arsitektur Listrik/Elektronik: Implikasi untuk OEM. McKinsey & Perusahaan. Manning, C., Raghavan, P., Schutze, H., 2008. Pengantar Informasi
Pengambilan. Pers Universitas Cambridge.
Banerjee, S., Pedersen, T., 2002. Algoritma Lesk yang diadaptasi untuk dis- sense kata Marcus, A., Maletic, J., 2003. Memulihkan dokumentasi-to-source-code traceabil-
ambiguitas menggunakan WordNet. Di dalam: Prok. dari Konferensi Internasional tautan ity menggunakan pengindeksan semantik laten. Di dalam: Prok. dari Inter ke-25. Konf. pada

Ketiga tentang Pemrosesan Teks Cerdas dan Linguistik Komputasi, Mxico City. Lembut. Inggris Vol. 12. hlm.5–135.

Benedittini, O., Baines, TS, Lightfoot, HW, 2009. Greenough, RM State-of- Mich, L., Franch, M., Inverardi, PN, 2004. Riset pasar tentang persyaratan
the-art dalam manajemen kesehatan kendaraan terpadu. J. Aerosp. Eng. 223 (2), 157– analisis menggunakan alat linguistik. Memerlukan. Eng. 9 (1), 40–56.
170. Mihalcea, R., Corley, C., Strapparava, C., 2006. Berbasis korpus dan pengetahuan-
Biemann, C., Bordag, S., Quasthoff, U., 2004. Akuisisi otomatis paradigma ukuran berdasarkan kesamaan semantik teks. Dalam: Dalam Proc. dari Nat ke-21.
hubungan matic menggunakan iterasi co-kejadian. Di dalam: Prok. Konferensi Konf. pada Artif. Intell., Vol. 1. AAAI Press, hlm. 775–780.
Internasional ke-4 tentang Sumber Daya dan Evaluasi Bahasa, Lisboa, Portugal. Mikolov, T., Chen, K., Corrado, G., Dean, J., 2013. Estimasi kata yang efisien
Blei, D., Ng, A., Jordan, M., 2003. Alokasi Dirichlet Laten. J.Mach. Mempelajari. Res. representasi dalam ruang vektor. Di dalam: Prok. dari Konferensi Internasional
3, 993–1022. tentang Representasi Pembelajaran.
Borg, M., Runeson, P., Ardo, A., 2014. Memulihkan dari satu dekade: sistematis Mohammad, S., Hirst, G., 2012. Pengukuran distribusi jarak semantik:
pemetaan pendekatan pengambilan informasi untuk ketertelusuran perangkat lunak. Int. J. survei. pracetak arXivarXiv:1203.1858, URL:http://citeseerx.ist.psu.edu/viewdoc/
Empir. Lembut. Eng. 19 (6), 1565–1616. download?doi=10.1.1.337.9413&rep=rep1&type=pdf.
Borg, A., Yong, A., Carlshamre, P., Sandahl, K., 2003. Hati nurani yang buruk Nentwich, C., Emmerich, W., Finkelstein, A., Ellmer, E., 2003. Konsistensi yang fleksibel
rekayasa persyaratan: Investigasi dalam perawatan dunia nyata dari persyaratan memeriksa. ACM Trans. Lembutw. Eng. Metode. 12, 28–63.
nonfungsional. Di dalam: Prok. dari conf ketiga. pada Lembut. Inggris Res. dan Prac., Noack, T., 2013. Penautan otomatis kasus uji dan persyaratan. Di dalam: Prok. dari
Swedia, Lund, hlm. 1-8. the Fifth International Conference Advances in System Testing and Vlidation
Budanitsky, A., Hirst, G., 2006. Mengevaluasi ukuran semantik berbasis WordNet Lifecycle, Venesia, Italia.
jarak. Komputer. Ahli bahasa. 32 (1), 13–47. Palmer, JD, 1997. Rekayasa Kebutuhan Perangkat Lunak. Masyarakat Komputer IEEE
Capobianco, G., De Lucia, A., Oliveto, R., Panichella, A., Panichella, S., 2013. Pers, New York,
Meningkatkan pemulihan ketertelusuran berbasis IR melalui pengindeksan artefak perangkat lunak Parvathy, AG, Vasudevan, BG, Balakrishnan, R., 2008. Studi komparatif
berbasis noun. J.Softw. Pemeliharaan. Evolut. Res. Praktek. 25 (7), 743–762. teknik korelasi dokumen untuk analisis ketertelusuran. Di dalam: Prok. dari Inter
Cilibrasi, R., Vitanyi, P., 2007. The google similarity distance. Trans IEEE. Tahu. ke-10. Konf. di Enter. Informasi. Sistem. Informasi. Sistem. Ana. dan Spek, Vol. 6. hlm.
Eng. 19 (3), 370–383. 4–69.
Deerwester, S., Dumais, ST, Furnas, GW, Landauer, TK, Harshman, R., 1990. Patwardhan, S., Banerjee, S., Pedersen, T., 2003. Menggunakan ukuran semantik
Pengindeksan dengan analisis semantik laten. Selai. Soc. Inf. Sains. 41 (6), 391–407. keterkaitan untuk disambiguasi arti kata. Di dalam: Prok. dari Konferensi
Dekhtyar, A., Huffman, HJ, Sundaram, S., Holbrook, A., Dekhtyar, O., 2007. Internasional ke-4 tentang Linguistik Komputasi dan Seri Teks Cerdas, Mexico City,
Integrasi teknik untuk penilaian kebutuhan. Dalam: Dalam Proc. dari Inter ke-15. Mexico, Vol. 24. hlm. 1-257.
Memerlukan. Inggris Konf, Vol. 14, hlm. 1–152. Pennington, J., Socher, R., Manning, C., 2014. GloVe: vektor global untuk kata
Devlin, J., Ming-Wei, C., Kenton, L., Toutanova, K., 2019. BERT: Prapelatihan perwakilan. Dalam: Prosiding Konferensi 2014 tentang Metode Empiris dalam
transformator dua arah yang dalam untuk pemahaman bahasa. Di dalam: Prok. dari Pemrosesan Bahasa Alami, EMNLP. Vol. 153. hlm. 2-1543.
Konferensi Tahunan 2019 Asosiasi Linguistik Komputasi Cabang Amerika Utara, Pohl, K., 1997. Perubahan manajemen. Di dalam: Mertens, P., Back, A., Becker, J. (Eds.),
Minneapolis, Minnesota, Vol. 417, hlm. 1–4186. Egyed, A., 2001. Pemeriksaan Leksikon Der Wirtschaftsinformatik. Springer, Berlin, Heidelberg.
konsistensi terukur antar diagram - The VIEWIN- Port, D., Nikora, A., Hayes, JH, Huang, L., 2011. Dukungan penambangan teks untuk perangkat lunak
Pendekatan TEGRA. Di dalam: Prok. dari IEEE Inter ke-16. Konf. pada Aut. Lembut. Inggris persyaratan: jaminan ketertelusuran. Dalam Prok. dari Hawaii Int ke-44. Konf. di Syst.
Masyarakat Komputer IEEE. P. 387. Sains. Hawaii.
Egyed, A., 2006. Pengecekan konsistensi instan untuk UML. Di dalam: Prok. dari ACM Rada, R., Mili, H., Bicknell, E., Blettner, M., 1989. Pengembangan dan aplikasi
Int.28 Konf. pada Lembut. Inggris Shanghai, Cina. Vol. 38, hlm. 1-390. Farfeleder, S., metrik pada jaringan semantik. IEEE Trans.Syst. Man Cybern. 19 (1), 17–30.
Moser, T., Krall, A., Stalhane, T., Omoronvia, I., Sojer, H., 2011. Rajpathak, D., 2013. Sistem penambangan teks berbasis ontologi untuk pengetahuan
Panduan berbasis ontologi untuk elisitasi kebutuhan. Di dalam: Prok. dari Perpanjangan penemuan dari data diagnosis dalam domain otomotif. Komputer. Ind.64, 565–580.
ke-8. Sem. Konferensi Web (ESWC 2011). Kreta, Yunani, 29 Mei-2 Juni 2011. Vol. 21. hlm.
2-226. Rajpathak, D., Singh, S., 2014. Metode penambangan teks berbasis ontologi untuk dikembangkan
Gabrilovich, E., Markovitch, S., 2007. Menghitung keterkaitan semantik menggunakan D-matrix dari teks yang tidak terstruktur. IEEE Tras. Sistem. Man Cybern. 44 (7), 966–
Analisis semantik eksplisit berbasis Wikipedia. Di dalam: Prok. dari Konferensi Bersama 977.
Internasional tentang Kecerdasan Buatan, Vol. 160. hlm. 6–1611. Rajpathak, D., Xu, Y., Gibbs, I., 2020. Kerangka terintegrasi untuk otomatis
Geravasi, V., Zowghi, D., 2005. Penalaran tentang ketidakkonsistenan dalam alam pembelajaran ontologi dari data teks perbaikan tidak terstruktur untuk deteksi dan isolasi
persyaratan bahasa. ACM Trans. Lembutw. Eng. Metode. 14, 277–330. Gnesi, S., Lami, kesalahan yang efektif dalam domain otomotif. Komputer. Ind.123.
G., Trentanni, G., 2005. Alat otomatis untuk analisis Ramesh, B., Stubbs, C., Powers, T., Edwards, M., 1997. Persyaratan ketertelusuran:
persyaratan bahasa alami. Int. J.Komput. Sistem. Sains. Eng. 20, 53–61. Harispe, S., Teori dan praktek. Ann. Lembut. Eng. 3, 397–415.
Sanchez, D., Ranwez, S., Janaqi, S., Montmain, J., 2014. Seorang fremarowkr Ratnaparkhi, A., 1996. Tagger part-of-speech entropi maksimum. Di dalam: Brill, E.,
untuk menyatukan langkah-langkah kesamaan semantik berbasis ontologi: Sebuah studi Gereja, K. (Eds.), Proc. dari Konferensi Metode Empiris dalam Pemrosesan Bahasa
dalam domain biomedis. J.Bio. Inf. 48, 38–53. Alami, Vol. 13, Filadelfia, PA. hlm. 3–142.
Huffman-Hayes, J., Dekhtyar, A., Osborne, J., 2003. Meningkatkan persyaratan Riloff, E., Shepherd, J., 1997. Pendekatan berbasis korpus untuk membangun semantik
penelusuran melalui pencarian informasi. Di dalam: Prok. dari Konferensi kamus. Di dalam: Prok. Konferensi Kedua tentang Metode Empiris dalam
Internasional tentang Rekayasa Kebutuhan, Vol. 13. hlm.8–147. Pemrosesan Bahasa Alami. Brown University, Providence, Rhode Island, hlm. 117–
Kamalrudin, M., Grundy, J., Hosking, J., 2010. Mengelola konsistensi antara 124.
persyaratan tekstual, interaksi abstrak, dan kasus penggunaan penting. Di dalam: Seoul, Roark, B., Charniak, E., 1998. Statistik kejadian bersama frase kata benda untuk semi-
Korea Selatan (Ed.), Proc. dari Intl. Konf. di Komp. Lembut. Aplikasi. (COMPSAC 2010). Vol. 32. konstruksi leksikon semantik otomatis. Di dalam: Prok. Pertemuan Tahunan ke-36
hlm. 7–336. Asosiasi Linguistik Komputasi. Universit de Montreal, Montreal, Quebec, Kanada,
Kotonya, G., Sommerville, I., 1998. Rekayasa Persyaratan: Proses dan hlm. 1110–1116.
Teknik. John Wiley Sons, Inc, ISBN: 0471972088. Rosario, B., 2000. Pengindeksan semantik laten: ikhtisar. Di dalam: INFOSYS 240 Spring
Kozlenkov, A., Zisman, A., 2002. Apakah spesifikasi desain mereka konsisten dengan Kertas. Universitas California, Berkeley.
persyaratan kami? Di dalam: Prok. dari IEEE Joint Int. Konf. pada Req. Inggris Spärck, Jones K., 1972. Sebuah interpretasi statistik dari spesifisitas istilah dan
hlm.145-154. aplikasi dalam pengambilan. J.Dok. 28, 11–21.
Leacock, C., Chodorow, M., 1998. Menggabungkan konteks lokal dan sim- WordNet Sultanov, H., Hayes, JH, Kong, W.-K., 2011. Penerapan teknik swarm untuk
ilaritas untuk identifikasi arti kata. Dalam: Fellbaum, C. (Ed.), WordNet: An Electronic penelusuran kebutuhan. Memerlukan. Eng. 16 3, 209–226.
Lexical Database. MIT Press, hlm. 265–283. Toutanova, K., Manning, CD, 2000. Memperkaya sumber pengetahuan yang digunakan dalam
Li, Y., Bandar, ZA, McLean, D., 2003. Suatu pendekatan untuk mengukur semantik tagger part-of-speech entropi maksimum. Di dalam: Prok. Konferensi SIGDAT
kesamaan antara kata-kata menggunakan beberapa sumber informasi. Trans IEEE. Bersama tentang Metode Empiris dalam Pemrosesan Bahasa Alami dan Corpora
Tahu. Eng. 15 (4), 871–882. Sangat Besar (EMNLP/VLC-2000). Vol. 6. hlm. 3-70.

17
D. Rajpathak, PM Peranandam dan S. Ramesh Jurnal Sistem & Perangkat Lunak 186 (2022) 111211

Turney, PD, 2001. Menambang Web untuk sinonim: PMI-IR versus LSA di TOEFL. Di dalam: Penghargaan "Boss Kettering", dan General Motors President Award, untuk karya dalam
Proses dari eur ke-12. Konf. di Mach. Belajar. ECML-2001, Freiburg, Jerman, Vol. 49. penambangan data, deteksi anomali, dan penambangan teks. Saat ini, dia adalah
hlm. 1-502. Associate Editor SAE International Journal of Aerospace. Dia telah menjabat sebagai
Turney, PD, 2002. Jempol ke atas atau ke bawah? Orientasi semantik diterapkan anggota Komite Program dari berbagai konferensi ACM CIKM 2020-21, ESWC'20,
untuk klasifikasi ulasan tanpa pengawasan. Di dalam: Prok. dari Ann ke-40. ESWC'14, ESWC'13, PDCTA-2016, dan menjabat sebagai reviewer di beberapa IEEE dan
Pertemuan Assoc. untuk Komp. Linguistik, Vol. 41. hlm. 7–424. jurnal internasional lainnya serta konferensi. Minat penelitiannya saat ini meliputi
Turney, PD, 2006. Kesamaan hubungan semantik. Komputer. Ahli bahasa. 32 (3), pembelajaran mendalam, pembelajaran mesin, penambangan data dan teks untuk
379–416. diagnosis dan prognosis, investigasi akar penyebab, deteksi masalah keselamatan yang
Wang, W., Niu, N., Liu, H., Niu, Z., 2018. Meningkatkan persyaratan otomatis muncul, manajemen kesehatan kendaraan terintegrasi, dan manufaktur 4.0.
ketertelusuran dengan menyelesaikan polisemi. Di dalam: Prok. Konferensi Rekayasa
Persyaratan Internasional (RE) ke-26 IEEE, Banff, AB, Kanada. hlm. 40–51. http://
Dr Prakash M. Peranandamadalah peneliti senior di GM R&D. Ia memperoleh gelar
dx.doi.org/10.1109/RE.2018.00-53.
Ph.D. pada tahun 2006 dari University of Tuebingen, Jerman. Dia telah ikut menulis lebih
Wong, WE, Debroy, V., Restrepo, A., 2010. Peran perangkat lunak belakangan ini
dari 30 publikasi penelitian, laporan teknis, dan menghasilkan lebih dari 40 IP. Minat
kecelakaan katastropik. Trans IEEE. Andal. 59 (3), 469–473.
penelitiannya adalah analisis & rekayasa persyaratan, virtualisasi, verifikasi & validasi
Wu, Z., Palmer, M., 1994. Semantik kata kerja dan pemilihan leksikal. Di dalam: Prok. dari
(V&V) perangkat lunak Tertanam dan sistem AV/ADAS.
32 tahun. Pertemuan Assoc. untuk Komp. Linguistik, Morristown, NJ, AS, Vol. 13. hlm.
3–138.
Xu, Y., Rajpathak, D., Gibbs, I., Klabjan, D., 2020. Pembelajaran ontologi otomatis
dari data teks pendek tidak terstruktur khusus domain. Dalam: Prosiding Konferensi
Bersama Internasional ke-12 tentang Penemuan Pengetahuan, Rekayasa dr. Ramesh Stelah bekerja di General Motors Global R&D di mana dia saat ini memegang
Pengetahuan, dan Manajemen Pengetahuan (IC3K 2020) - Vol. 3: KMI. Vol. 2. hlm. 9– posisi Senior Technical Fellow dan memimpin area dorong untuk perangkat lunak
39. ISBN: 978-989-758-474-9. tertanam berbasis model. Di General Motors, dia bertanggung jawab untuk memberikan
Zesch, T., Gurevych, I., 2007. Analisis grafik kategori wikipedia untuk NLP kepemimpinan teknis untuk penelitian dan pengembangan di beberapa bidang yang
aplikasi. Di dalam: Prok. Lokakarya TextGraphs-2 (NAACL-HLT 2007), Rochester, NY. berkaitan dengan proses, metode, dan peralatan Elektronika, Kontrol & Perangkat Lunak.
hlm. 1-8. Bidang minatnya yang luas adalah Rekayasa Perangkat Lunak yang Ketat, Sistem
Zowghi, D., Gervasi, V., 2003. Tentang interaksi antara konsistensi, kelengkapan- Tertanam, dan Sistem Waktu Nyata. Dia adalah penulis beberapa paten dan telah
ness, dan kebenaran dalam evolusi persyaratan. Inf. Lembutw. Technol. 45, 993– menerbitkan lebih dari 100 makalah di jurnal dan konferensi internasional yang ditinjau
1009. oleh rekan sejawat. Dia berada di dewan redaksi International Journal on Real-Time
Systems, Eurasip Journal on Embedded Systems, dan sebelumnya di IEEE Journal on
Embedded System Letters. Sebelum bergabung dengan GM R&D, dia berada di fakultas
departemen Ilmu & Teknik Komputer di IIT Bombay, selama lebih dari lima belas tahun.
Dr.Dnyanesh G. Rajpathakadalah Staf Peneliti di General Motors. Ia memperoleh gelar Ph.D.
Di IIT Bombay, dia memainkan peran utama dalam mendirikan Pusat Nasional untuk
gelar dalam Kecerdasan Buatan dari Universitas Terbuka, Inggris, pada tahun 2004. Dia memiliki
Desain Formal dan Verifikasi Perangkat Lunak. Sebagai kepala pendiri Pusat ini, dia
lebih dari 15 paten dan lebih dari 37 rahasia metode perdagangan yang diberikan bersama
melakukan banyak proyek verifikasi perangkat lunak yang disematkan, untuk beberapa
dengan lebih dari 26 publikasi teknis untuk kreditnya. Dia dianugerahi penghargaan Charles L.
organisasi Pemerintah. Dia adalah rekan dari Akademi Teknik Nasional India dan menjadi
McCuen (GM R&D) 2010, penghargaan GM paling bergengsi tahun 2011
fakultas tamu/tambahan di banyak institusi.

18

Anda mungkin juga menyukai