Information/Data
Eva Nurhasanah
Program Studi Ilmu Komputer
Universitas Esa Unggul
Jakarta
eva.nurhasanah58@gmail.com
ABSTRACT dan bisnis, data yang sangat besar dihasilkan setiap hari[1].
Salah satunya pengunaan data yang besar seperti media
Data telah menjadi bagian tak terpisahkan dari kehidupan
sosial yang dihasilkan setiap hari melalui aplikasi jejaring
kita sehari-hari di era industry 4.0. Jumlah data yang
sosial seperti YouTube, Twitter, Facebook, LinkedIn,
dihasilkan tumbuh secara eksponensial karena kemajuan
WhatsApp dan lain-lain. Data diproduksi setiap hari [2].
teknologi. Banyaknya data yang dihasilkan setiap hari telah
Setiap detik lebih banyak data yang disimpan saat ini
menghasilkan istilah baru yang disebut sebagai big data.
daripada yang ada di seluruh Internet 20 tahun yang lalu [3].
Oleh karena itu, keamanan menjadi perhatian besar untuk
Kumpulan data ini yang besar dan kompleks dan menjadi
mengamankan proses big data. Kelangsungan hidup banyak
sulit ditangani oleh sistem manajemen basis data relasional
organisasi tergantung pada pencegahan agar data ini tidak
tradisional telah menghasilkan istilah "Big Data" [4]. Istilah
jatuh ke tangan yang salah.
ini sekarang digunakan di mana-mana dalam kehidupan kita
Selain itu, mekanisme keamanan tradisional seperti firewall, sehari-hari.
virtual private networks (VPNs), dan sistem deteksi intrusi /
sistem pencegahan intrusi (IDS / IPSs) tidak cukup untuk Big Data (BD) semakin populer karena jumlah perangkat
mencegah kebocoran data sensitive/rahasia tersebut. Oleh yang terhubung dengan "Internet of Things" (IoT)
karena itu, untuk mengatasi kekurangan ini dalam meningkat tidak terduga, menghasilkan volume data yang
melindungi data sensitive/rahasia, sebuah paradigma baru besar yang perlu diubah menjadi informasi yang
yang disebut sistem pencegahan kebocoran data (Data berharga[5]. Selain itu, munculnya BD telah membawa
Leaked Prevention System DLPS) telah diperkenalkan. tantangan baru dalam hal keamanan[6]. Menurut Toshniwal
Selama beberapa tahun terakhir, banyak kontribusi et al (2015) [6], ada peningkatan kebutuhan untuk penelitian
penelitian telah dilakukan untuk mengatasi kebocoran data. dalam teknologi yang dapat menangani set data besar dan
Namun, sebagian besar penelitian terdahulu berfokus pada membuatnya aman secara efisien.
deteksi kebocoran data untuk mencegah kebocoran.
Penelitian ini diharapkan memberikan gambaran mengenai Menurut Tahboub dan Saleh (2014)[7], kebutuhan untuk
pendekatan pencegahan DLPS untuk mengusulkan enkripsi melindungi informasi yang merupakan aset berharga tidak
hybrid simetris-asimetris untuk mencegah kebocoran data. perlu terlalu ditekankan. Pencegahan Kebocoran Data (DLP)
telah ditemukan sebagai salah satu cara efektif untuk
mencegah Kebocoran Data. Solusi DLP mendeteksi dan
KEYWORDS mencegah upaya menyalin atau mengirim data sensitif, baik
Big data, big data security, pencegahan kebocoran data, secara sengaja atau tidak sengaja tanpa otorisasi oleh orang-
system pencegahan kebocoran data. orang yang berwenang untuk mengakses informasi sensitif.
DLP dirancang untuk mendeteksi potensi insiden
pelanggaran data pada waktu yang tepat dan ini terjadi
1 INTRODUCTION dengan memantau data saat sedang digunakan (end action)
Di era yang didorong oleh informasi, data telah menjadi atau dalam gerakan (Network Traffic) atau saat istirahat
bagian tak terpisahkan dari kehidupan kita sehari-hari. (storage data) [7].
Dengan kombinasi komputasi awan, internet, dan perangkat
seluler yang telah menjadi bagian besar dalam kehidupan
Big data security – Data Privacy: Pencegahan Kebocoran
Jakarta 3 Januari, 2020, Indonesia
Information/Data
Menurut ISACA (2010)[8], DLP bertujuan untuk menegaskan bahwa kebocoran data terjadi ketika data
menghentikan hilangnya informasi sensitif yang terjadi di sensitif diungkapkan kepada pengguna atau pihak yang tidak
perusahaan secara global. Dengan berfokus pada lokasi, berwenang baik secara sengaja atau tidak. Kebocoran data
klasifikasi dan pemantauan informasi saat istirahat (at-rest), dapat menyebabkan implikasi serius atau ancaman bagi
digunakan (in-use) dan bergerak (in-motion), DLP memiliki banyak entitas. Misalnya, hilangnya data rahasia atau
tugas untuk membantu perusahaan menangani informasi apa sensitif dapat berdampak buruk atau merugikan reputasi dan
yang dimilikinya, dan dalam menghentikan berbagai kredibilitas perusahaan, pelanggan, kepercayaan
kebocoran informasi yang terjadi setiap hari. [8]. Penelitian karyawan[7].
ini dirancang untuk merancang metode untuk membantu
mencegah kebocoran data dalam big data. DLP kadang- Kebutuhan untuk mengatasi masalah kebocoran data terus
kadang disebut sebagai Pencegahan Kehilangan Data (Data meningkat dalam penerapan mekanisme kontrol keamanan
Loss Preventive) di sebagian besar literatur, namun, dalam seperti firewall, VPN, IDS, dan IPSs [10]. Menurut Alneyadi
penelitian ini DLP berarti Pencegahan Kebocoran Data et al (2016)[11], sistem tersebut bekerja dengan baik ketika
(Data Leak Preventive). data didefinisikan dengan baik, terstruktur dan konstan.
Alneyadi et al (2016)[11] lebih lanjut menyatakan bahwa
ketika data dimodifikasi, tag berbeda atau dikompresi,
2 RESEARCH METODHOLOGY
sistem tersebut menjadi kurang efektif dan data rahasia
Penelitian ini menggunakan Design Science Research masih bisa bocor. Misalnya, firewall dapat memblokir akses
Methodology (DSRM) untuk menjawab pertanyaan ke data rahasia, atau data yang sama dapat diakses melalui
penelitian dan untuk mencapai tujuan dalam menyediakan beberapa cara seperti lampiran email dan olah pesan cepat
metode yang dapat membantu mencegah kebocoran data (WA). Ini berarti bahwa mekanisme keamanan tradisional
dalam BD. Hevner et al (2004, p.77) [9] menjelaskan bahwa (firewall, VPN, IDS / IPSs) cacat dan kurang memahami
Desain Science Research (DSR) “creates and evaluates IT semantik data[11]. Untuk mengatasi kekurangan ini dalam
artifacts intended to solve identified organizational melindungi data sensitif, sebuah paradigma baru yang
problems”. Artefak TI terdiri dari konstruksi, model, disebut sistem pencegahan kebocoran data (Data Leaked
metode, dan Instansiasi[9]. Untuk membuat artefak Preventive System DLPS) dibuat.
(metode) TI yang dapat memandu pedoman yang digunakan
dalam mencegah kebocoran data, metodologi yang cocok
adalah DSR. Tujuan utama penelitian ini adalah merancang Masalah keamanan dan privasi telah meningkat dengan
metode dalam membantu mencegah kebocoran data dalam kecepatan, volume, dan variasi BD, seperti infrastruktur
BD dan hal tersebut membutuhkan metodologi cloud skala besar, keragaman sumber data dan format, sifat
komprehensif seperti DSR. streaming dari akuisisi data, dan migrasi volume yang besar
antar-cloud[4]. BD bisa peka atau tidak peka, dan masalah
2.1 Research Motivation kebocoran data dapat menyebabkan kerugian bagi bisnis
ataupun user. Sebagai contoh, catatan kartu kredit pelanggan
Motivasi penelitian adalah untuk menemukan metode dalam yang bocor merugikan bank dan pelanggan. Seringkali
mencegah kebocoran data dalam BD menggunakan kebocoran data terjadi karena berbagi informasi dengan
pendekatan pencegahan/preventive seperti enkripsi sehingga pengguna secara internal atau eksternal, bertukar email yang
kebocoran dapat dicegah sebelum terjadi. Metode ini berisi informasi sensitif, merilis informasi secara publik di
diharapkan bisa mejadi solusi yang lebih murah yang dapat
internet atau cloud, informasi yang dicuri dengan motif
diterapkan untuk mencegah kebocoran data.
ilegal atau tanpa diketahui[12]. Sensitivitas data bervariasi
2.2 Research Problem and objective seperti informasi perbankan, informasi kartu kredit, data
kriminal, data keuangan, catatan kesehatan, dll. Munculnya
Salah satu aset penting bagi banyak perusahaan adalah data, BD telah membawa banyak tantangan keamanan data yang
dan dalam hal ini perlindungan data ini harus menjadi memerlukan mekanisme berbeda dalam menangani situasi.
prioritas utama[7]. Meskipun banyak yang telah menerapkan Selain itu, karena banyaknya data yang dihasilkan dan
mekanisme keamanan dan sistem teknis tertentu seperti digunakan, harus ada teknologi dan metodologi canggih
firewall, virtual private networks (VPNs), dan sistem deteksi yang dapat menangani banyak data secara aman dan efisien
intrusi / sistem pencegahan intrusi (IDS / IPSs) masih terjadi dan untuk mencegah kebocoran data.
kebocoran data[7]. Tahboub dan Saleh (2014)[7]
Big data security – Data Privacy: Pencegahan Kebocoran
Jakarta 3 Januari, 2020, Indonesia
Information/Data
2. Security Best Practices for Non-Relational Data komunikasi yang aman secara kriptografis yang
Stores harus diimplementasikan.
Non-relational data stores yang dikenal dengan 8. Granular Access Control
NoSQL masih dikembangkan dalam hal Properti keamanan yang penting dari sudut
infrastrukture keamanannya. Pengembang yang pandang kontrol akses adalah kerahasiaan yang
menggunakan basis data NoSQL biasanya mencegah akses data oleh orang yang tidak
menanamkan keamanan di middleware. berwenang. Kontrol akses granular memberikan
3. Secure Data Storage and Transaction Logs pengaturan data lebih presisi saat berbagi data tanpa
Log data dan transaksi disimpan dalam media mengurangi privasi.
penyimpanan multi-tier. Memindahkan data secara 9. Granular Audits
manual antar tier membantu mengontrol dengan Dengan real-time monitoring, setiap ada serangan
tepat data apa yang dipindahkan dan kapan. keamanan selalu menghasilkan notifikasi, namun
Namun, karena ukuran kumpulan data terus pada prakteknya terkadang terdapat serangan yang
meningkat dan tumbuh secara eksponensial, terlewat dinotifikasikan, sehingga diperlukan
skalabilitas dan ketersediaan telah mengharuskan informasi audit.
auto-tiering untuk manajemen penyimpanan BD. 10. Data Provenance
Namun, solusi auto-tiering tidak dapat melacak di Kompleksitas data provenance akan semakin
mana data disimpan, yang menciptakan tantangan meningkat seiring dengan dihasilkannya grafik
baru untuk mengamankan penyimpanan data. pembuktian yang besar dari lingkungan
4. End Point Input Validation/Filtering provenance-enabled programming pada aplikasi
BD mengumpulkan data dari berbagai sumber BD. Analisa grafik tersebut untuk mengidentifikasi
seperti End point devices. Tantangan utama dalam dependensi metadata untuk aplikasi keamanan atau
proses pengumpulan data adalah validasi input. kerahasiaan.
Validasi dan pemfilteran input merupakan
tantangan berat yang ditimbulkan oleh sumber 3.2 Pencegahan Kebocoran Data (DLP)
input yang tidak terpercaya, terutama model bring Menurut Kale et al (2015)[10], solusi Data Leak Preventive
your own device (BYOD). (DLP) adalah salah satu solusi teknis dan metodologi baru
5. Real-time Security Monitoring yang pada dasarnya melindungi data sensitif agar tidak
Real time security monitoring selalu menjadi
dilihat oleh pengguna atau individu yang salah atau tidak
tantangan tersendiri mengingat jumlah alert yang
dihasilkan perangkat keamanan. Alert tersebut berwenang. Ini berarti bahwa data spesifik harus dilihat
menghasilkan banyak false positive yang hanya oleh individu atau kelompok yang berwenang[10].
kebanyakan diabaikan atau hanya diklik. Masalah Dengan kata lain, "DLP adalah teknik yang digunakan untuk
ini bahkan dapat meningkat mengingat volume dan menyembunyikan kerahasiaan data yang diakses oleh
velocity BD aliran data. Namun, teknologi BD pengguna yang tidak sah"[20]. Selain itu, DLP adalah solusi
memungkinkan memberikan peluang untuk atau produk yang dirancang untuk mendeteksi potensi
mempercepat proses dan menganalisis berbagai insiden pelanggaran data secara tepat waktu dan
jenis data. mencegahnya dengan memantau data saat in-use (endpoint
6. Scalable and Composable Privacy-Preserving actions) atau in-motion (network traffic) atau at-rest (data
Data Mining and Analytics
storage[7]. Solusi DLP mengatasi kebocoran data dalam tiga
BD berpotensi untuk invasi privasi, pemasaran
invasif, penurunan kebebasan sipil, dan keadaan data berikut sepanjang siklus hidupnya dengan
peningkatan kontrol negara dan perusahaan. menerapkan serangkaian teknologi [7][21] [22]:
7. Cryptographically Enforced Data-Centric Security
Untuk memastikan bahwa data pribadi yang paling
sensitif adalah end to end yang aman dan hanya
dapat diakses oleh entitas yang berwenang, data
harus dienkripsi berdasarkan kebijakan kontrol
akses. Penelitian khusus dalam bidang ini seperti
attribute-based encryption (ABE) harus dibuat
lebih kaya, lebih efisien, dan terukur. Untuk
memastikan otentikasi, perjanjian, dan keadilan di
antara entitas yang didistribusikan, kerangka kerja
Gambar 2 Siklus Data
Big data security – Data Privacy: Pencegahan Kebocoran
Jakarta 3 Januari, 2020, Indonesia
Information/Data
4 DESIGN
Big data security – Data Privacy: Pencegahan Kebocoran
Jakarta 3 Januari, 2020, Indonesia
Information/Data
Tujuan dari solusi ini adalah untuk menyediakan metode beberapa tugas seperti pemilihan data, pembersihan data,
untuk mencegah kebocoran data dalam BD dengan pembuatan data, dan format data. Semua data diekspor ke
penekanan pada data semi-terstruktur (data tekstual) format Teks (TXT) yang mampu dibaca oleh sebagian besar
menggunakan pendekatan pencegahan seperti enkripsi. perangkat lunak penambangan data. Data yang digunakan
Dalam merancang artefak TI, model proses CRISP-DM dianggap sangat rahasia atau sensitif.
yang akan berfungsi sebagai teori kernel.
4.3 Modeling
Terdapat 3 tipe algoritma machine learning yaitu algorithma
supervised, unsupervised, and reinforcement learning
[25][26][27].
Supervised
Tujuan algoritma ini untuk mempelajari
pengklasifikasi kumpulan data yang diketahui
(dokumen yang berlabel) untuk melakukan klasifikasi
secara otomatis pada kumpulan data yang tidak dikenal
(dokumen tidak berlabel) [28][29][30]. Contoh dari
algoritma ini adalah Support Vector Machine (SVM),
K Nearest Neighbor (K-NN), Naive Bayes Classifier
(NBC), Random Forest, Regression, Logistic
Regression, Decision Trees (DT), etc [25] [28][29][30].
Unsupervised
Unsupervised algoritma digunakan untuk kumpulan
dokumen atau data yang tidak diberi label di seluruh
prosesnya. Contoh-contoh dari algoritma Unsupervised
adalah Clustering, Apriori algorithm, Affinity Analysis,
Self‐Organizing Maps (SOM), etc [25][26].
Gambar 4 Model proses CRISP-DM Reinforcement learning
Algoritma yang memilih berdasarkan data point dan
4.1 Data Understanding kemudian memperlajarinya untuk menentukan
Tahap pemahaman data dimulai dengan pengumpulan data seberapa baik keputusan tersebut[25]. Contoh
awal yaitu data semi-structured data (textual data). Data algoritma ini adalah Artificial Neural Network (ANN),
tersebut yang perlu dicegah agar tidak bocor dan Markov Chains (Markov Decision Process).
diklasifikasikan sebagai data confidential atau non-
confidential. Data tersebut bisa berupa organisasi data itu Tujuan utama solusi DLP adalah untuk "mendeteksi dan
sendiri atau klien yang membagikan informasi pribadi mencegah usaha yang tidak memiliki hak akses untuk
dengan organisasi. menyalin atau mengirim data sensitif, baik secara sengaja
atau tidak sengaja, tanpa otorisasi, oleh orang-orang yang
Informasi yang dianggap rahasia atau sensitif akan berbeda berwenang untuk mengakses informasi sensitif"[10].
tergantung pada jenis bisnis yang dioperasikan oleh suatu Dengan kata lain, "DLP adalah teknik yang digunakan untuk
organisasi. Namun, ada informasi tertentu yang dianggap menyembunyikan kerahasiaan data yang diakses oleh
rahasia atau sensitif. Contoh informasi tersebut adalah pengguna yang tidak sah" [20]. Untuk mencapai tujuan
informasi pribadi untuk karyawan, informasi penggajian, tersebut, kita harus dapat mengklasifikasikan dokumen
surat penawaran, slip gaji, nomor telepon, dan alamat rumah. menjadi rahasia atau non-rahasia berdasarkan pada
kumpulan dokumen atau data yang diketahui (atau kategori
4.2 Data Preparation yang telah ditentukan sebelumnya), algoritma machine
Tahap persiapan data atau pra-pemrosesan data adalah learning supervised menjadi klasifikasi akan sesuai untuk
mengubah data mentah menjadi format yang sesuai untuk solusi DLP.
digunakan dalam tahap pemodelan. Fase ini mencakup
4.3 Cryptography (Encryption and Decryption)
Big data security – Data Privacy: Pencegahan Kebocoran
Jakarta 3 Januari, 2020, Indonesia
Information/Data
Setelah dokumen atau data diklasifikasikan menjadi dokumen akan akan diberikan token, case transformed, stop
confidential atau un-confidential melalui machine learning words filtered, menghasilkan n-gram dan dilakukan
supervised, data confidential tersebut perlu dienkripsi stemming sebagai tahap pra-pemrosesan. Setelah itu, data-
sehingga hanya pengguna dengan kunci dekripsi yang dapat data tersebut akan ditransformasikan menjadi vektor-vektor
mengakses dokumen rahasia tersebut. Dengan demikian bobot TF-IDF. Fase 1 akan dibagi lagi menjadi fase
kebocoran data dapat dicegah. Kriptografi adalah metode Pelatihan (Pembelajaran) dan Deteksi.
untuk menyimpan informasi sensitif atau rahasia dan Pelatihan
mengirimkannya melalui jaringan yang tidak aman (yaitu Selama fase pelatihan, satu set dokumen rahasia dan
Internet) sehingga hanya penerima yang dituju dapat non-rahasia yang akan berfungsi sebagai set pelatihan
membaca informasi [31][32]. Kriptografi dapat dibagi dan akan digunakan untuk mengembangkan model
menjadi tiga yaitu symmetric-key, asymmetric-key dan menggunakan NBC. Berikut langkah-langkahnya:
hashing. 1. Pengumpulan dokumen/data teks rahasia dan
Symmetric-key cryptography tidak rahasia,
Dalam kriptografi ini hanya terdapat satu kunci rahasia 2. Memasukan kedua set data ke dalam data mining
yang digunakan bersama oleh kedua pihak yang terlibat tools yang sesuai.
dalam komunikasi untuk keperluan enkripsi dan 3. Lakukan pra-pemrosesan teks
dekripsi. Contohnya Data Encryption Standard (DES), 4. Lakukan supervised NBC pada kedua set data.
Triple DES, Advanced Encryption Standard (AES), 5. Simpan model pelatihan
RC5, BLOWFISH, TWOFISH, THREEFISH etc [32] Deteksi
[33]. Selama fase deteksi, satu set data yang tidak diketahui
Asymmetric-key cryptography yang merupakan kombinasi dari dokumen rahasia dan
Dalam kriptografi ini terdapat dua kunci dalam non-rahasia akan berfungsi sebagai data input sehingga
komunikasi, yaitu satu kunci privat dan satu kunci model yang dihasilkan dalam fase pelatihan dapat
publik. Data yang dienkripsi dengan kunci publik harus diterapkan. Langkah-langkah:
didekripsi dengan kunci pribadi yang sesuai. Tipe ini 1. Muat dokumen teks yang tidak dikenal dalam alat
juga disebut sebagai kriptografi kunci publik. penambangan data yang sesuai.
Contohnya adalah RSA, Kurva Elliptic, [32] [33]. 2. Lakukan pra-pemrosesan teks.
Hashing 3. Terapkan model pelatihan yang dihasilkan dalam
Jenis sistem enkripsi ini melibatkan pesan singkat fixed fase pelatihan.
length yang dihasilkan dari Panjang variable pesan. 4. Kelompokkan dokumen/data teks rahasia.
Penerima yang dituju harus memiliki pesan seperti
pesan singkat. 5.1 Enskripsi dan Deskripsi
- Dekripsi File dengan Kunci AES (mis. Dekripsi [11] Alneyadi, S., Sithirasenan, E. & Muthukkumarasamy, V. (2016), A
survey on data leakage prevention systems, Journal of Network and
file besar dengan kunci acak
Computer Applications, vol. 62, issue C, pp. 137-152.
[12] Tidke, P., Wagh, A., Bharade, D. & Dongre, A. G. (2015), Data
Leakage Prevention with E-Mail Filtering, International Journal of
5 CONCLUSION AND FUTURE RESEARCH Advance Foundation and Research in Computer (IJAFRC), vol. 2,
issue 2, pp. 28-32.
Penelitian ini menjelaskan metode DLP dengan [13] Inukollu, V. N., Arsi, S. & Ravuri, S. R. (2014), Security Issues
mengusulkan pendekatan enkripsi hybrid simetris-asimetris Associated with Big Data in Cloud Computing, International Journal
of Network Security & Its Applications (IJNSA), vol.6, no.3, pp. 45-
untuk mencegah kebocoran data. Ini adalah salah satu 56.
metode atau pendekatan pencegahan DLPS. Penelitian ini [14] Tene, O. & Polonetsky, J. (2013), Big Data for All: Privacy and User
menunjukkan bahwa enkripsi juga bisa berfungsi sebagai Control in the Age of Analytics, Northwestern Journal of Technology
and Intellectual Property, vol. 11 issue 5, pp. 238-273.
landasan BDS. Metode enkripsi hybrid yang diusulkan yang [15] Tabassum, R. & Tyagi, N. (2016), Issues and Approaches for Big Data
merupakan kombinasi dari enkripsi asimetris (RSA) dan Security, International Journal of Latest Technology in Engineering,
simetris (AES) dapat digunakan untuk mencegah kebocoran Management & Applied Science (IJLTEMAS), vol. V, issue VII, pp.
72-74.
dokumen rahasia atau sensitif. [16] Bhogal, N. & Jain, S. (2017), A Review on Big Data Security and
Diharapkan penelitian berikutnya dapat mengotomatisasi Handling, International Research Based Journal, vol. 6, issue 1, pp. 1-
5.
metode DLP tersebut ke dalam data mining yang sesuai
[17] Yosepu¸ C., Srinivasulu¸ P. & Subbarayudu, B. (2015), A Study on
dengan teknologi BD seperti Hadoop secara otomatis. Security and Privacy in Big Data Processing, International Journal of
Hadoop adalah kerangka kerja open source yang Innovative Research in Computer and Communication Engineering,
vol. 3, issue 12, pp. 12292-12296.
memungkinkan penyimpanan terdistribusi dan memproses [18] Kaushik, M. & Jain, A. (2014), Challenges to Big Data Security and
data set besar di seluruh cluster komputer jaringan Privacy, International Journal of Computer Science and Information
menggunakan model pemrograman sederhana. Technologies, vol. 5, no. 3, pp. 3042-3043.
[19] Mahajan, P., Gaba, G. & Chauhan, N. S. (2016), Big Data Security,
IITM Journal of Management and IT, vol. 7, issue 1, pp. 89-94.
REFERENCES [20] Jain, M & Lenka, S. K. (2016), A Review on Data Leakage Prevention
[1] Hima Bindu, S., Gireesha, O., Sahithi, A. N. & Mounicama, A. (2016), using Image Steganography, International Journal of Computer
Security Aspects in Big Data, International Journal of Innovative Science Engineering (IJCSE), vol. 5, no. 02, pp. 56-59.
Research in Computer and Communication Engineering, vol. 4, issue [21] Ahmad, S. W. & Bamnote, G. R. (2013), Data Leakage Detection and
4, pp. 1111-1118. Data Prevention Using Algorithm, International Journal of Computer
[2] Harish Kumar, M. & Menakadevi, T. (2017), A Review on Big Data Science and Applications, vol. 6, no. 2, pp. 394-399.
Analytics in the field of Agriculture, International Journal of Latest [22] Peneti, S. & Rani, B. P. (2015a), Data Leakage Detection and
Transactions in Engineering and Science, vol. 1, issue 4, pp. 0001- Prevention Methods: Survey. Discovery, vol. 43, no. 198, pp. 95-100.
0010. [23] Ram, K. (2015), Analysis of Data Leakage Prevention on cloud
[3] McAfee, A. & Brynjolfsson, E. (2012), Big Data. The Management computing, International Journal of Scientific & Engineering
Revolution, Harvard Business Review, vol. 90, no. 10, pp. 61-67. Research, vol. 6, issue 1, pp. 457-461.
[4] Shirudkar, K. & Motwani, D. (2015), Big-Data Security. International [24] Shabtai, A., Elovici, Y. and Rokach, L. (2012), A taxonomy of data
Journal of Advanced Research in Computer Science and Software leakage prevention solutions, In A Survey of Data Leakage Detection
Engineering, vol. 5, issue 3, pp. 1100-1109. and Prevention Solutions (pp. 11-15), Springer US. Shearer, C. (2000),
[5] Moura, J. & Serrão, C. (2015), Security and Privacy Issues of Big Data. The CRISP-DM Model: The New Blueprint for Data Mining, Journal
In book Handbook of Research on Trends and Future Directions in Big of Data Warehousing, vol. 5, no. 4, pp. 13-22.
Data and Web Intelligence, IGI Global. [Online], Available: [25] Abdallh, M.M.A, Bilal, K. H.& Babiker, A. (2016), Machine Learning
https://arxiv.org/ftp/arxiv/papers/1601/1601.06206.pdf [Accessed: Algorithms, International Journal of Engineering, Applied and
22nd November, 2016]. Management Sciences Paradigms, vol. 36, issue 01, pp. 17-27.
[6] Toshniwal, R., Dastidar, K. G., & Nath, A. (2015), Big Data Security [26] Kaur, K. (2016), Machine Learning: Applications in Indian
Issues and Challenges, International Journal of Innovative Research in Agriculture, International Journal of Advanced Research in Computer
Advanced Engineering (IJIRAE), vol. 2, issue 2, pp. 15-20. and Communication Engineering, vol. 5, issue 4, pp. 342-344.
[7] Tahboub, R & Saleh, Y. (2014), Data Leakage / Loss Prevention [27] Patil, R. P., Bhavsar, R. P. & Pawar, B. V. (2016), A Comparative
Systems (DLP), NNGT Journal: International Journal of Information Study of Text Classification Methods: An Experimental Approach,
Systems, vol. 1, pp. 13-18. International Journal on Recent and Innovation Trends in Computing
[8] ISACA (2010), Data Leak Prevention [White Paper]. [Online]. and Communication, vol. 4, issue 3, pp. 517-523.
Available: http://www.isaca.org/Groups/Professional- [28] Bali, M. & Gore, D. (2015), A Survey on Text Classification with
English/security-trend/GroupDocuments/DLP-WP- 14Sept2010- Different Types of Classification Methods, International Journal of
Research.pdf [Accessed: 22nd November, 2016]. Innovative Research in Computer and Communication Engineering,
[9] Hevner, A. R., March, S. T., Park, J. & Ram, S. (2004), Design Science vol. 3, issue 5, pp. 4888-4894.
in Information Systems Research, MIS Quarterly, vol. 28, no. 1, pp. [29] Chavan, G.S., Manjare, S., Hegde, P. & Sankhe, A. (2014), A Survey
75-105. of Various Machine Learning Techniques for Text Classification,
[10] Kale, A. V., Bajpayee, V. & Dubey, S. P. (2015), Analysis of Data International Journal of Engineering Trends and Technology (IJETT),
Leakage Prevention Solutions, International Journal For Engineering vol. 15, no. 6, pp. 288-292.
Applications And Technology (IJFEAT), vol. 1, issue, 12, pp. 5457. [30] Vala, M. & Gandhi, J. (2015), Survey of Text Classification Technique
and Compare Classifier, International Journal of Innovative Research
Big data security – Data Privacy: Pencegahan Kebocoran
Jakarta 3 Januari, 2020, Indonesia
Information/Data