Big Data Security - Data Privacy - Information Data Leaked Prevention

Big data security – Data Privacy: Pencegahan Kebocoran
Information/Data
Eva Nurhasanah
Program Studi Ilmu Komputer
Universitas Esa Unggul
Jakarta
eva.nurhasanah58@gmail.com
ABSTRACT dan bisnis, data yang sangat besar dihasilkan setiap hari[1].
Salah satunya pengunaan data yang besar seperti media
Data telah menjadi bagian tak terpisahkan dari kehidupan
sosial yang dihasilkan setiap hari melalui aplikasi jejaring
kita sehari-hari di era industry 4.0. Jumlah data yang
sosial seperti YouTube, Twitter, Facebook, LinkedIn,
dihasilkan tumbuh secara eksponensial karena kemajuan
WhatsApp dan lain-lain. Data diproduksi setiap hari [2].
teknologi. Banyaknya data yang dihasilkan setiap hari telah
Setiap detik lebih banyak data yang disimpan saat ini
menghasilkan istilah baru yang disebut sebagai big data.
daripada yang ada di seluruh Internet 20 tahun yang lalu [3].
Oleh karena itu, keamanan menjadi perhatian besar untuk
Kumpulan data ini yang besar dan kompleks dan menjadi
mengamankan proses big data. Kelangsungan hidup banyak
sulit ditangani oleh sistem manajemen basis data relasional
organisasi tergantung pada pencegahan agar data ini tidak
tradisional telah menghasilkan istilah "Big Data" [4]. Istilah
jatuh ke tangan yang salah.
ini sekarang digunakan di mana-mana dalam kehidupan kita
Selain itu, mekanisme keamanan tradisional seperti firewall, sehari-hari.
virtual private networks (VPNs), dan sistem deteksi intrusi /
sistem pencegahan intrusi (IDS / IPSs) tidak cukup untuk Big Data (BD) semakin populer karena jumlah perangkat
mencegah kebocoran data sensitive/rahasia tersebut. Oleh yang terhubung dengan "Internet of Things" (IoT)
karena itu, untuk mengatasi kekurangan ini dalam meningkat tidak terduga, menghasilkan volume data yang
melindungi data sensitive/rahasia, sebuah paradigma baru besar yang perlu diubah menjadi informasi yang
yang disebut sistem pencegahan kebocoran data (Data berharga[5]. Selain itu, munculnya BD telah membawa
Leaked Prevention System DLPS) telah diperkenalkan. tantangan baru dalam hal keamanan[6]. Menurut Toshniwal
Selama beberapa tahun terakhir, banyak kontribusi et al (2015) [6], ada peningkatan kebutuhan untuk penelitian
penelitian telah dilakukan untuk mengatasi kebocoran data. dalam teknologi yang dapat menangani set data besar dan
Namun, sebagian besar penelitian terdahulu berfokus pada membuatnya aman secara efisien.
deteksi kebocoran data untuk mencegah kebocoran.
Penelitian ini diharapkan memberikan gambaran mengenai Menurut Tahboub dan Saleh (2014)[7], kebutuhan untuk
pendekatan pencegahan DLPS untuk mengusulkan enkripsi melindungi informasi yang merupakan aset berharga tidak
hybrid simetris-asimetris untuk mencegah kebocoran data. perlu terlalu ditekankan. Pencegahan Kebocoran Data (DLP)
telah ditemukan sebagai salah satu cara efektif untuk
mencegah Kebocoran Data. Solusi DLP mendeteksi dan
KEYWORDS mencegah upaya menyalin atau mengirim data sensitif, baik
Big data, big data security, pencegahan kebocoran data, secara sengaja atau tidak sengaja tanpa otorisasi oleh orang-
system pencegahan kebocoran data. orang yang berwenang untuk mengakses informasi sensitif.
DLP dirancang untuk mendeteksi potensi insiden
pelanggaran data pada waktu yang tepat dan ini terjadi
1 INTRODUCTION dengan memantau data saat sedang digunakan (end action)
Di era yang didorong oleh informasi, data telah menjadi atau dalam gerakan (Network Traffic) atau saat istirahat
bagian tak terpisahkan dari kehidupan kita sehari-hari. (storage data) [7].
Dengan kombinasi komputasi awan, internet, dan perangkat
seluler yang telah menjadi bagian besar dalam kehidupan
Jakarta 3 Januari, 2020, Indonesia
Information/Data
Menurut ISACA (2010)[8], DLP bertujuan untuk menegaskan bahwa kebocoran data terjadi ketika data
menghentikan hilangnya informasi sensitif yang terjadi di sensitif diungkapkan kepada pengguna atau pihak yang tidak
perusahaan secara global. Dengan berfokus pada lokasi, berwenang baik secara sengaja atau tidak. Kebocoran data
klasifikasi dan pemantauan informasi saat istirahat (at-rest), dapat menyebabkan implikasi serius atau ancaman bagi
digunakan (in-use) dan bergerak (in-motion), DLP memiliki banyak entitas. Misalnya, hilangnya data rahasia atau
tugas untuk membantu perusahaan menangani informasi apa sensitif dapat berdampak buruk atau merugikan reputasi dan
yang dimilikinya, dan dalam menghentikan berbagai kredibilitas perusahaan, pelanggan, kepercayaan
kebocoran informasi yang terjadi setiap hari. [8]. Penelitian karyawan[7].
ini dirancang untuk merancang metode untuk membantu
mencegah kebocoran data dalam big data. DLP kadang- Kebutuhan untuk mengatasi masalah kebocoran data terus
kadang disebut sebagai Pencegahan Kehilangan Data (Data meningkat dalam penerapan mekanisme kontrol keamanan
Loss Preventive) di sebagian besar literatur, namun, dalam seperti firewall, VPN, IDS, dan IPSs [10]. Menurut Alneyadi
penelitian ini DLP berarti Pencegahan Kebocoran Data et al (2016)[11], sistem tersebut bekerja dengan baik ketika
(Data Leak Preventive). data didefinisikan dengan baik, terstruktur dan konstan.
Alneyadi et al (2016)[11] lebih lanjut menyatakan bahwa
ketika data dimodifikasi, tag berbeda atau dikompresi,
2 RESEARCH METODHOLOGY
sistem tersebut menjadi kurang efektif dan data rahasia
Penelitian ini menggunakan Design Science Research masih bisa bocor. Misalnya, firewall dapat memblokir akses
Methodology (DSRM) untuk menjawab pertanyaan ke data rahasia, atau data yang sama dapat diakses melalui
penelitian dan untuk mencapai tujuan dalam menyediakan beberapa cara seperti lampiran email dan olah pesan cepat
metode yang dapat membantu mencegah kebocoran data (WA). Ini berarti bahwa mekanisme keamanan tradisional
dalam BD. Hevner et al (2004, p.77) [9] menjelaskan bahwa (firewall, VPN, IDS / IPSs) cacat dan kurang memahami
Desain Science Research (DSR) “creates and evaluates IT semantik data[11]. Untuk mengatasi kekurangan ini dalam
artifacts intended to solve identified organizational melindungi data sensitif, sebuah paradigma baru yang
problems”. Artefak TI terdiri dari konstruksi, model, disebut sistem pencegahan kebocoran data (Data Leaked
metode, dan Instansiasi[9]. Untuk membuat artefak Preventive System DLPS) dibuat.
(metode) TI yang dapat memandu pedoman yang digunakan
dalam mencegah kebocoran data, metodologi yang cocok
adalah DSR. Tujuan utama penelitian ini adalah merancang Masalah keamanan dan privasi telah meningkat dengan
metode dalam membantu mencegah kebocoran data dalam kecepatan, volume, dan variasi BD, seperti infrastruktur
BD dan hal tersebut membutuhkan metodologi cloud skala besar, keragaman sumber data dan format, sifat
komprehensif seperti DSR. streaming dari akuisisi data, dan migrasi volume yang besar
antar-cloud[4]. BD bisa peka atau tidak peka, dan masalah
2.1 Research Motivation kebocoran data dapat menyebabkan kerugian bagi bisnis
ataupun user. Sebagai contoh, catatan kartu kredit pelanggan
Motivasi penelitian adalah untuk menemukan metode dalam yang bocor merugikan bank dan pelanggan. Seringkali
mencegah kebocoran data dalam BD menggunakan kebocoran data terjadi karena berbagi informasi dengan
pendekatan pencegahan/preventive seperti enkripsi sehingga pengguna secara internal atau eksternal, bertukar email yang
kebocoran dapat dicegah sebelum terjadi. Metode ini berisi informasi sensitif, merilis informasi secara publik di
diharapkan bisa mejadi solusi yang lebih murah yang dapat
internet atau cloud, informasi yang dicuri dengan motif
diterapkan untuk mencegah kebocoran data.
ilegal atau tanpa diketahui[12]. Sensitivitas data bervariasi
2.2 Research Problem and objective seperti informasi perbankan, informasi kartu kredit, data
kriminal, data keuangan, catatan kesehatan, dll. Munculnya
Salah satu aset penting bagi banyak perusahaan adalah data, BD telah membawa banyak tantangan keamanan data yang
dan dalam hal ini perlindungan data ini harus menjadi memerlukan mekanisme berbeda dalam menangani situasi.
prioritas utama[7]. Meskipun banyak yang telah menerapkan Selain itu, karena banyaknya data yang dihasilkan dan
mekanisme keamanan dan sistem teknis tertentu seperti digunakan, harus ada teknologi dan metodologi canggih
firewall, virtual private networks (VPNs), dan sistem deteksi yang dapat menangani banyak data secara aman dan efisien
intrusi / sistem pencegahan intrusi (IDS / IPSs) masih terjadi dan untuk mencegah kebocoran data.
kebocoran data[7]. Tahboub dan Saleh (2014)[7]
Information/Data
Beberapa metode DLP telah dirancang, namun masih sedikit

yang melakukan penelitian terkait metode pencegahan Karakter Big data mengacu pada 3V yaitu Volume, Velocity,
kebocoran data dalam BD yang menggunakan pendekatan dan Variety, kemudian dua lagi ditambahkan untuk
pencegahan yang dapat membantu mencegah kebocoran menjadikannya 5V's - Veracity and Value.
sebelum terjadi kebocoran. • Volume
Volume (kapasitas data) berkaitan dengan ukuran
media penyimpanan data yang sangat besar atau
2.3 Limitation mungkin tak terbatas hingga satuan petabytes atau
zettabytes.
Penelitian ini terbatas pada penggunaan enkripsi sebagai • Variety
pendekatan preventif dalam mencegah kebocoran data Variety (keragaman data) terkait tipe atau jenis data
dalam BD dengan penekanan pada data semi-terstruktur yang dapat diolah mulai dari data terstruktur hingga
(tekstual/txt). Ini berarti bahwa jenis metode pencegahan data tidak terstruktur.
lainnya seperti kontrol akses, menonaktifkan fungsi, dan • Velocity
kesadaran tidak akan dibahas. Juga, enkripsi BD lainnya Velocity (kecepatan) terkait dengan kecepatan
tidak akan dibahas meskipun metode ini mampu menangani memroses data yang dihasilkan dari berbagai sumber,
dokumen tertentu yang tidak dalam format TXT seperti mulai dari data batch hingga real time,
DOCX, PDF, PPT, dan banyak lagi. Algoritma enkripsi juga • Veracity (kebenaran).
Kebenaran sumber data serta kesesuaian data
terbatas hanya untuk RSA dan AES. Metode yang diusulkan
• Value (Nilai)
tidak otomatis karena data dimasukkan secara manual ke Kegunaan data dalam membuat keputusan.
data mining untuk melakukan klasifikasi. Volume data yang
digunakan dalam eksperimen sedikit karena penelitian ini 3.2 Big Data Security (BDS)
untuk mencegah kebocoran pada BD.
Masalah keamanan dan privasi telah meningkat seiring
3 LITERATURE REVIEW dengan meningkatnya karakter BD velocity, volume dan
variety. Hal tersebut menjadi tantangan BD dalam hal
3.1 Big Data (BD) masalah keamanan. Dalam BDS sendiri masalah keamanan
merupakan tantangan tersendiri yang dikelompokan menjadi
BD adalah istilah yang digunakan untuk menggambarkan
4 kategori [16][4][17][18] [1][19]:
volume besar data terstruktur, semi-terstruktur dan tidak
terstruktur yang sangat besar dan kompleks sehingga sangat
sulit untuk diproses oleh database tradisional dan teknologi
perangkat lunak[13]. Data dihasilkan dari transaksi online,
interaksi jejaring sosial, email, video, gambar, clickstream,
log, permintaan pencarian, sensor, GPS, jalan dan jembatan,
dan ponsel [14]. Jenis data dalam BD dijelaskan lebih lanjut
di bawah ini [15]:
 Data Terstruktur
kumpulan data relasional (data tabel) yang biasa
ditemukan di database relasional yang sebagian besar
dikelola oleh SQL
 Data Semi-Terstruktur
Jenis data terstruktur yang tidak memiliki struktur
model data dan tidak sesuai dengan struktur formal. Gambar 1 Kategori Big data security
Jenis data ini dikelola oleh Bahasa seperti XML, notasi
objek skrip Java (JSON), dll. 1. Secure Computations in Distributed Programming
 Data Tidak Terstruktur Framework
Jenis data ini berasal dari mesin yang dihasilkan atau Kerangka kerja pemrograman terdistribusi
buatan manusia. Sebagai contoh; teks, email, foto, menggunakan paralelisme dalam perhitungan dan
video, audio, film, data grafik, simulasi ilmiah, penyimpanan untuk memproses data dalam jumlah
transaksi keuangan, catatan telepon, peta geospasial, besar. Contoh yang dikenal dan populer adalah
tweet, data Facebook, data sensor, dll.
kerangka kerja MapReduce.
Information/Data
2. Security Best Practices for Non-Relational Data komunikasi yang aman secara kriptografis yang
Stores harus diimplementasikan.
Non-relational data stores yang dikenal dengan 8. Granular Access Control
NoSQL masih dikembangkan dalam hal Properti keamanan yang penting dari sudut
infrastrukture keamanannya. Pengembang yang pandang kontrol akses adalah kerahasiaan yang
menggunakan basis data NoSQL biasanya mencegah akses data oleh orang yang tidak
menanamkan keamanan di middleware. berwenang. Kontrol akses granular memberikan
3. Secure Data Storage and Transaction Logs pengaturan data lebih presisi saat berbagi data tanpa
Log data dan transaksi disimpan dalam media mengurangi privasi.
penyimpanan multi-tier. Memindahkan data secara 9. Granular Audits
manual antar tier membantu mengontrol dengan Dengan real-time monitoring, setiap ada serangan
tepat data apa yang dipindahkan dan kapan. keamanan selalu menghasilkan notifikasi, namun
Namun, karena ukuran kumpulan data terus pada prakteknya terkadang terdapat serangan yang
meningkat dan tumbuh secara eksponensial, terlewat dinotifikasikan, sehingga diperlukan
skalabilitas dan ketersediaan telah mengharuskan informasi audit.
auto-tiering untuk manajemen penyimpanan BD. 10. Data Provenance
Namun, solusi auto-tiering tidak dapat melacak di Kompleksitas data provenance akan semakin
mana data disimpan, yang menciptakan tantangan meningkat seiring dengan dihasilkannya grafik
baru untuk mengamankan penyimpanan data. pembuktian yang besar dari lingkungan
4. End Point Input Validation/Filtering provenance-enabled programming pada aplikasi
BD mengumpulkan data dari berbagai sumber BD. Analisa grafik tersebut untuk mengidentifikasi
seperti End point devices. Tantangan utama dalam dependensi metadata untuk aplikasi keamanan atau
proses pengumpulan data adalah validasi input. kerahasiaan.
Validasi dan pemfilteran input merupakan
tantangan berat yang ditimbulkan oleh sumber 3.2 Pencegahan Kebocoran Data (DLP)
input yang tidak terpercaya, terutama model bring Menurut Kale et al (2015)[10], solusi Data Leak Preventive
your own device (BYOD). (DLP) adalah salah satu solusi teknis dan metodologi baru
5. Real-time Security Monitoring yang pada dasarnya melindungi data sensitif agar tidak
Real time security monitoring selalu menjadi
dilihat oleh pengguna atau individu yang salah atau tidak
tantangan tersendiri mengingat jumlah alert yang
dihasilkan perangkat keamanan. Alert tersebut berwenang. Ini berarti bahwa data spesifik harus dilihat
menghasilkan banyak false positive yang hanya oleh individu atau kelompok yang berwenang[10].
kebanyakan diabaikan atau hanya diklik. Masalah Dengan kata lain, "DLP adalah teknik yang digunakan untuk
ini bahkan dapat meningkat mengingat volume dan menyembunyikan kerahasiaan data yang diakses oleh
velocity BD aliran data. Namun, teknologi BD pengguna yang tidak sah"[20]. Selain itu, DLP adalah solusi
memungkinkan memberikan peluang untuk atau produk yang dirancang untuk mendeteksi potensi
mempercepat proses dan menganalisis berbagai insiden pelanggaran data secara tepat waktu dan
jenis data. mencegahnya dengan memantau data saat in-use (endpoint
6. Scalable and Composable Privacy-Preserving actions) atau in-motion (network traffic) atau at-rest (data
Data Mining and Analytics
storage[7]. Solusi DLP mengatasi kebocoran data dalam tiga
BD berpotensi untuk invasi privasi, pemasaran
invasif, penurunan kebebasan sipil, dan keadaan data berikut sepanjang siklus hidupnya dengan
peningkatan kontrol negara dan perusahaan. menerapkan serangkaian teknologi [7][21] [22]:
7. Cryptographically Enforced Data-Centric Security
Untuk memastikan bahwa data pribadi yang paling
sensitif adalah end to end yang aman dan hanya
dapat diakses oleh entitas yang berwenang, data
harus dienkripsi berdasarkan kebijakan kontrol
akses. Penelitian khusus dalam bidang ini seperti
attribute-based encryption (ABE) harus dibuat
lebih kaya, lebih efisien, dan terukur. Untuk
memastikan otentikasi, perjanjian, dan keadilan di
antara entitas yang didistribusikan, kerangka kerja
Gambar 2 Siklus Data
Information/Data
Ram (2015) [23] menjelaskan bahwa DLP sangat berguna

karena membantu organisasi untuk melindungi tidak hanya
data terstruktur tetapi juga perlindungan dan pencegahan
kebocoran data tidak terstruktur. Ram (2015) [23] lebih
lanjut menegaskan bahwa DLP berfungsi sebagai
mekanisme kontrol data yang sangat cocok dengan struktur
bisnis organisasi.
Menurut Peneti dan Rani (2015b) [23], sistem pencegahan

kebocoran data (DLPS) menggunakan istilah rahasia dan
metode identifikasi data untuk mengendalikan kebocoran
data dalam organisasi. Pertama, DLPS mengidentifikasi
dokumen mana yang merupakan dokumen rahasia dan
Gambar 3 Taxonomi DLP Solution
dokumen non-rahasia.
• What to protect? (data state)

Menurut Alneyadi et al (2016)[11], DLPS dapat
Solusi DLP menawarkan perlindungan dengan
didefinisikan sebagai sistem yang dirancang untuk
membedakan tiga fase lifecycle data yaitu DAR, DIU,
mendeteksi dan mencegah akses, penggunaan,
dan DIM
pengungkapan, atau transmisi informasi rahasia yang tidak
• Where to protect? (deployment scheme)
sah. Bahkan menggunakan DLP untuk mengurangi risiko
Dua skema penyebaran utama solusi DLP adalah
dan meningkatkan praktik manajemen data dan juga untuk
Endpoint dan Network. Solusi endpoint adalah
menurunkan biaya [23].
memonitor endpoint dan control akses ke data ketika
server pengawas mengambil control procedure
Perbedaan utama antara DLPS dan teknologi yang ada
administrasi dan kebijakan distribusi. Sedangkan
adalah bahwa DLPS sadar akan konten; mereka dirancang
Solusi DLP Network digunakan di network pada saat
untuk memberikan visibilitas ke tempat data paling sensitif
semua network traffic dianalisis. Sehingga, transmisi
perusahaan disimpan, siapa yang memiliki akses ke sana,
yang bertentangan dengan kebijakan yang telah
dan ke mana dan oleh siapa data itu dikirim ke luar jaringan
ditentukan akan diidentifikasi dan diblokir.
perusahaan. Aplikasi keamanan yang ada tidak dapat
• How to protect? (leakage handling approach)
melakukan level pemantauan ini[7]. Pernyataan ini juga
Semua insiden kebocoran ditangani oleh dua
didukung oleh Alneyadi et al (2016)[11], “DLPS berbeda
mekanisme utama atau pendekatan yaitu pendekatan
dari kontrol keamanan konvensional seperti firewall, VPN
detektif dan preventif. Pendekatan detektif DLPS
dan IDS dalam hal dedikasi dan proaktif. Kontrol keamanan
menerapkan tindakan yang diperlukan berdasarkan
konvensional kurang memiliki dedikasi terhadap konten
inspeksi berbasis konteks, inspeksi berbasis konten,
data yang sebenarnya ”
dan penandaan konten Pendekatan detektif, sistem
akan mendeteksi kemungkinan insiden kebocoran dan
Solusi DLP dapat dikelompokkan sesuai dengan taksonomi
menerapkan tindakan korektif yang mampu menangani
yang menggabungkan fitur-fitur berikut:[24] [22][11]
insiden kebocoran yang diidentifikasi [24]. Sedangkan
pendekatan preventif, menerapkan mekanisme kontrol
akses, fungsi menonaktifkan, enkripsi, dan kesadaran.
Pendekatan preventif, memungkinan insiden
kebocoran dicegah sebelum terjadi dengan
menerapkan langkah-langkah yang tepat [24].
4 DESIGN
Information/Data
Tujuan dari solusi ini adalah untuk menyediakan metode beberapa tugas seperti pemilihan data, pembersihan data,
untuk mencegah kebocoran data dalam BD dengan pembuatan data, dan format data. Semua data diekspor ke
penekanan pada data semi-terstruktur (data tekstual) format Teks (TXT) yang mampu dibaca oleh sebagian besar
menggunakan pendekatan pencegahan seperti enkripsi. perangkat lunak penambangan data. Data yang digunakan
Dalam merancang artefak TI, model proses CRISP-DM dianggap sangat rahasia atau sensitif.
yang akan berfungsi sebagai teori kernel.
4.3 Modeling
Terdapat 3 tipe algoritma machine learning yaitu algorithma
supervised, unsupervised, and reinforcement learning
[25][26][27].
 Supervised
Tujuan algoritma ini untuk mempelajari
pengklasifikasi kumpulan data yang diketahui
(dokumen yang berlabel) untuk melakukan klasifikasi
secara otomatis pada kumpulan data yang tidak dikenal
(dokumen tidak berlabel) [28][29][30]. Contoh dari
algoritma ini adalah Support Vector Machine (SVM),
K Nearest Neighbor (K-NN), Naive Bayes Classifier
(NBC), Random Forest, Regression, Logistic
Regression, Decision Trees (DT), etc [25] [28][29][30].
 Unsupervised
Unsupervised algoritma digunakan untuk kumpulan
dokumen atau data yang tidak diberi label di seluruh
prosesnya. Contoh-contoh dari algoritma Unsupervised
adalah Clustering, Apriori algorithm, Aﬃnity Analysis,
Self‐Organizing Maps (SOM), etc [25][26].
Gambar 4 Model proses CRISP-DM  Reinforcement learning
Algoritma yang memilih berdasarkan data point dan
4.1 Data Understanding kemudian memperlajarinya untuk menentukan
Tahap pemahaman data dimulai dengan pengumpulan data seberapa baik keputusan tersebut[25]. Contoh
awal yaitu data semi-structured data (textual data). Data algoritma ini adalah Artificial Neural Network (ANN),
tersebut yang perlu dicegah agar tidak bocor dan Markov Chains (Markov Decision Process).
diklasifikasikan sebagai data confidential atau non-
confidential. Data tersebut bisa berupa organisasi data itu Tujuan utama solusi DLP adalah untuk "mendeteksi dan
sendiri atau klien yang membagikan informasi pribadi mencegah usaha yang tidak memiliki hak akses untuk
dengan organisasi. menyalin atau mengirim data sensitif, baik secara sengaja
atau tidak sengaja, tanpa otorisasi, oleh orang-orang yang
Informasi yang dianggap rahasia atau sensitif akan berbeda berwenang untuk mengakses informasi sensitif"[10].
tergantung pada jenis bisnis yang dioperasikan oleh suatu Dengan kata lain, "DLP adalah teknik yang digunakan untuk
organisasi. Namun, ada informasi tertentu yang dianggap menyembunyikan kerahasiaan data yang diakses oleh
rahasia atau sensitif. Contoh informasi tersebut adalah pengguna yang tidak sah" [20]. Untuk mencapai tujuan
informasi pribadi untuk karyawan, informasi penggajian, tersebut, kita harus dapat mengklasifikasikan dokumen
surat penawaran, slip gaji, nomor telepon, dan alamat rumah. menjadi rahasia atau non-rahasia berdasarkan pada
kumpulan dokumen atau data yang diketahui (atau kategori
4.2 Data Preparation yang telah ditentukan sebelumnya), algoritma machine
Tahap persiapan data atau pra-pemrosesan data adalah learning supervised menjadi klasifikasi akan sesuai untuk
mengubah data mentah menjadi format yang sesuai untuk solusi DLP.
digunakan dalam tahap pemodelan. Fase ini mencakup
4.3 Cryptography (Encryption and Decryption)
Information/Data
Setelah dokumen atau data diklasifikasikan menjadi dokumen akan akan diberikan token, case transformed, stop
confidential atau un-confidential melalui machine learning words filtered, menghasilkan n-gram dan dilakukan
supervised, data confidential tersebut perlu dienkripsi stemming sebagai tahap pra-pemrosesan. Setelah itu, data-
sehingga hanya pengguna dengan kunci dekripsi yang dapat data tersebut akan ditransformasikan menjadi vektor-vektor
mengakses dokumen rahasia tersebut. Dengan demikian bobot TF-IDF. Fase 1 akan dibagi lagi menjadi fase
kebocoran data dapat dicegah. Kriptografi adalah metode Pelatihan (Pembelajaran) dan Deteksi.
untuk menyimpan informasi sensitif atau rahasia dan  Pelatihan
mengirimkannya melalui jaringan yang tidak aman (yaitu Selama fase pelatihan, satu set dokumen rahasia dan
Internet) sehingga hanya penerima yang dituju dapat non-rahasia yang akan berfungsi sebagai set pelatihan
membaca informasi [31][32]. Kriptografi dapat dibagi dan akan digunakan untuk mengembangkan model
menjadi tiga yaitu symmetric-key, asymmetric-key dan menggunakan NBC. Berikut langkah-langkahnya:
hashing. 1. Pengumpulan dokumen/data teks rahasia dan
 Symmetric-key cryptography tidak rahasia,
Dalam kriptografi ini hanya terdapat satu kunci rahasia 2. Memasukan kedua set data ke dalam data mining
yang digunakan bersama oleh kedua pihak yang terlibat tools yang sesuai.
dalam komunikasi untuk keperluan enkripsi dan 3. Lakukan pra-pemrosesan teks
dekripsi. Contohnya Data Encryption Standard (DES), 4. Lakukan supervised NBC pada kedua set data.
Triple DES, Advanced Encryption Standard (AES), 5. Simpan model pelatihan
RC5, BLOWFISH, TWOFISH, THREEFISH etc [32]  Deteksi
[33]. Selama fase deteksi, satu set data yang tidak diketahui
 Asymmetric-key cryptography yang merupakan kombinasi dari dokumen rahasia dan
Dalam kriptografi ini terdapat dua kunci dalam non-rahasia akan berfungsi sebagai data input sehingga
komunikasi, yaitu satu kunci privat dan satu kunci model yang dihasilkan dalam fase pelatihan dapat
publik. Data yang dienkripsi dengan kunci publik harus diterapkan. Langkah-langkah:
didekripsi dengan kunci pribadi yang sesuai. Tipe ini 1. Muat dokumen teks yang tidak dikenal dalam alat
juga disebut sebagai kriptografi kunci publik. penambangan data yang sesuai.
Contohnya adalah RSA, Kurva Elliptic, [32] [33]. 2. Lakukan pra-pemrosesan teks.
 Hashing 3. Terapkan model pelatihan yang dihasilkan dalam
Jenis sistem enkripsi ini melibatkan pesan singkat fixed fase pelatihan.
length yang dihasilkan dari Panjang variable pesan. 4. Kelompokkan dokumen/data teks rahasia.
Penerima yang dituju harus memiliki pesan seperti
pesan singkat. 5.1 Enskripsi dan Deskripsi
Artefak TI pada fase ini yang diusulkan adalah hybrid dari

5 METODE DLP enkripsi simetris dan asimetris yang mampu mengenkripsi
Artefak (metode) TI yang diusulkan akan membantu untuk file besar dengan algoritma simetris (contoh AES) dengan
mencegah kebocoran data dalam BD dengan penekanan kunci atau kata sandi yang dihasilkan secara acak. Kunci
pada data semi-terstruktur (data tekstual) menggunakan tersebut kemudian akan disimpan dalam file dan dienkripsi
pendekatan pencegahan seperti enkripsi yang terdiri dari dengan algoritma asimetris (contoh RSA). Ini dapat dicapai
dua fase. dengan mengikuti langkah-langkah (algoritma) di bawah ini
1. Klasifikasi dokumen/data menjadi rahasia dan non- [34][35]:
rahasia dengan bantuan teknik klasifikasi. 1. Generate RSA Keypairs
2. Menerapkan teknik kriptografi hybrid (terdiri dari 2. Generate AES Key (the random password file)
AES dan RSA) untuk mengenkripsi semua dokumen 3. Encryption:
rahasia. - Enkripsi File dengan Kunci AES (mis. Enkripsi
file dengan kunci acak)
5.1 Klasifikasi Dokumen/data - Enkripsi Kunci AES dengan Kunci Publik RSA
(mis. Enkripsi kunci acak dengan file kunci
Pada fase digunakan untuk menentukan dokumen/data mana publik)
yang rahasia dan tidak rahasia selanjutnya data rahasia akan 4. Decryption:
dienkripsi pada fase kedua. Metode klasifikasi NBC akan - Mendekripsi Kunci AES dengan Kunci Privat
dilakukan untuk klasifikasi dokumen/data. Inputan dari fase RSA (mis. Mendekripsi kunci acak dengan file
ini adalah kumpulan data rahasia dan tidak rahasia. Setiap kunci pribadi)
Information/Data
- Dekripsi File dengan Kunci AES (mis. Dekripsi [11] Alneyadi, S., Sithirasenan, E. & Muthukkumarasamy, V. (2016), A
survey on data leakage prevention systems, Journal of Network and
file besar dengan kunci acak
Computer Applications, vol. 62, issue C, pp. 137-152.
[12] Tidke, P., Wagh, A., Bharade, D. & Dongre, A. G. (2015), Data
Leakage Prevention with E-Mail Filtering, International Journal of
5 CONCLUSION AND FUTURE RESEARCH Advance Foundation and Research in Computer (IJAFRC), vol. 2,
issue 2, pp. 28-32.
Penelitian ini menjelaskan metode DLP dengan [13] Inukollu, V. N., Arsi, S. & Ravuri, S. R. (2014), Security Issues
mengusulkan pendekatan enkripsi hybrid simetris-asimetris Associated with Big Data in Cloud Computing, International Journal
of Network Security & Its Applications (IJNSA), vol.6, no.3, pp. 45-
untuk mencegah kebocoran data. Ini adalah salah satu 56.
metode atau pendekatan pencegahan DLPS. Penelitian ini [14] Tene, O. & Polonetsky, J. (2013), Big Data for All: Privacy and User
menunjukkan bahwa enkripsi juga bisa berfungsi sebagai Control in the Age of Analytics, Northwestern Journal of Technology
and Intellectual Property, vol. 11 issue 5, pp. 238-273.
landasan BDS. Metode enkripsi hybrid yang diusulkan yang [15] Tabassum, R. & Tyagi, N. (2016), Issues and Approaches for Big Data
merupakan kombinasi dari enkripsi asimetris (RSA) dan Security, International Journal of Latest Technology in Engineering,
simetris (AES) dapat digunakan untuk mencegah kebocoran Management & Applied Science (IJLTEMAS), vol. V, issue VII, pp.
72-74.
dokumen rahasia atau sensitif. [16] Bhogal, N. & Jain, S. (2017), A Review on Big Data Security and
Diharapkan penelitian berikutnya dapat mengotomatisasi Handling, International Research Based Journal, vol. 6, issue 1, pp. 1-
5.
metode DLP tersebut ke dalam data mining yang sesuai
[17] Yosepu¸ C., Srinivasulu¸ P. & Subbarayudu, B. (2015), A Study on
dengan teknologi BD seperti Hadoop secara otomatis. Security and Privacy in Big Data Processing, International Journal of
Hadoop adalah kerangka kerja open source yang Innovative Research in Computer and Communication Engineering,
vol. 3, issue 12, pp. 12292-12296.
memungkinkan penyimpanan terdistribusi dan memproses [18] Kaushik, M. & Jain, A. (2014), Challenges to Big Data Security and
data set besar di seluruh cluster komputer jaringan Privacy, International Journal of Computer Science and Information
menggunakan model pemrograman sederhana. Technologies, vol. 5, no. 3, pp. 3042-3043.
[19] Mahajan, P., Gaba, G. & Chauhan, N. S. (2016), Big Data Security,
IITM Journal of Management and IT, vol. 7, issue 1, pp. 89-94.
REFERENCES [20] Jain, M & Lenka, S. K. (2016), A Review on Data Leakage Prevention
[1] Hima Bindu, S., Gireesha, O., Sahithi, A. N. & Mounicama, A. (2016), using Image Steganography, International Journal of Computer
Security Aspects in Big Data, International Journal of Innovative Science Engineering (IJCSE), vol. 5, no. 02, pp. 56-59.
Research in Computer and Communication Engineering, vol. 4, issue [21] Ahmad, S. W. & Bamnote, G. R. (2013), Data Leakage Detection and
4, pp. 1111-1118. Data Prevention Using Algorithm, International Journal of Computer
[2] Harish Kumar, M. & Menakadevi, T. (2017), A Review on Big Data Science and Applications, vol. 6, no. 2, pp. 394-399.
Analytics in the field of Agriculture, International Journal of Latest [22] Peneti, S. & Rani, B. P. (2015a), Data Leakage Detection and
Transactions in Engineering and Science, vol. 1, issue 4, pp. 0001- Prevention Methods: Survey. Discovery, vol. 43, no. 198, pp. 95-100.
0010. [23] Ram, K. (2015), Analysis of Data Leakage Prevention on cloud
[3] McAfee, A. & Brynjolfsson, E. (2012), Big Data. The Management computing, International Journal of Scientific & Engineering
Revolution, Harvard Business Review, vol. 90, no. 10, pp. 61-67. Research, vol. 6, issue 1, pp. 457-461.
[4] Shirudkar, K. & Motwani, D. (2015), Big-Data Security. International [24] Shabtai, A., Elovici, Y. and Rokach, L. (2012), A taxonomy of data
Journal of Advanced Research in Computer Science and Software leakage prevention solutions, In A Survey of Data Leakage Detection
Engineering, vol. 5, issue 3, pp. 1100-1109. and Prevention Solutions (pp. 11-15), Springer US. Shearer, C. (2000),
[5] Moura, J. & Serrão, C. (2015), Security and Privacy Issues of Big Data. The CRISP-DM Model: The New Blueprint for Data Mining, Journal
In book Handbook of Research on Trends and Future Directions in Big of Data Warehousing, vol. 5, no. 4, pp. 13-22.
Data and Web Intelligence, IGI Global. [Online], Available: [25] Abdallh, M.M.A, Bilal, K. H.& Babiker, A. (2016), Machine Learning
https://arxiv.org/ftp/arxiv/papers/1601/1601.06206.pdf [Accessed: Algorithms, International Journal of Engineering, Applied and
22nd November, 2016]. Management Sciences Paradigms, vol. 36, issue 01, pp. 17-27.
[6] Toshniwal, R., Dastidar, K. G., & Nath, A. (2015), Big Data Security [26] Kaur, K. (2016), Machine Learning: Applications in Indian
Issues and Challenges, International Journal of Innovative Research in Agriculture, International Journal of Advanced Research in Computer
Advanced Engineering (IJIRAE), vol. 2, issue 2, pp. 15-20. and Communication Engineering, vol. 5, issue 4, pp. 342-344.
[7] Tahboub, R & Saleh, Y. (2014), Data Leakage / Loss Prevention [27] Patil, R. P., Bhavsar, R. P. & Pawar, B. V. (2016), A Comparative
Systems (DLP), NNGT Journal: International Journal of Information Study of Text Classification Methods: An Experimental Approach,
Systems, vol. 1, pp. 13-18. International Journal on Recent and Innovation Trends in Computing
[8] ISACA (2010), Data Leak Prevention [White Paper]. [Online]. and Communication, vol. 4, issue 3, pp. 517-523.
Available: http://www.isaca.org/Groups/Professional- [28] Bali, M. & Gore, D. (2015), A Survey on Text Classification with
English/security-trend/GroupDocuments/DLP-WP- 14Sept2010- Different Types of Classification Methods, International Journal of
Research.pdf [Accessed: 22nd November, 2016]. Innovative Research in Computer and Communication Engineering,
[9] Hevner, A. R., March, S. T., Park, J. & Ram, S. (2004), Design Science vol. 3, issue 5, pp. 4888-4894.
in Information Systems Research, MIS Quarterly, vol. 28, no. 1, pp. [29] Chavan, G.S., Manjare, S., Hegde, P. & Sankhe, A. (2014), A Survey
75-105. of Various Machine Learning Techniques for Text Classification,
[10] Kale, A. V., Bajpayee, V. & Dubey, S. P. (2015), Analysis of Data International Journal of Engineering Trends and Technology (IJETT),
Leakage Prevention Solutions, International Journal For Engineering vol. 15, no. 6, pp. 288-292.
Applications And Technology (IJFEAT), vol. 1, issue, 12, pp. 5457. [30] Vala, M. & Gandhi, J. (2015), Survey of Text Classification Technique
and Compare Classifier, International Journal of Innovative Research
Information/Data
in Computer and Communication Engineering, vol. 3, issue 11, pp.

1080910813.
[31] Al-Hazaimeh, O. M. (2013), A New Approach for Complex
Encrypting and Decrypting Data, International journal of Computer
Networks & Communications, vol. 5, no. 2, pp. 95-103.
[32] Bhanot, R. & Hans, R. (2015), A Review and Comparative Analysis of
Various Encryption Algorithms, International Journal of Security and
Its Applications, vol. 9, no. 4, pp. 289-306.
[33] Daimary, A. & Saikia, L. P. (2015), A Study of Different Data
Encryption Algorithms at Security Level: A Literature Review,
(IJCSIT) International Journal of Computer Science and Information
Technologies, vol. 6, no. 4, pp. 3507-3509.
[34] Elst, R. V. (2015), Encrypt and decrypt files to public keys via the
OpenSSL Command Line. [Online]. Available:
https://raymii.org/s/tutorials/Encrypt_and_decrypt_files_to_public_ke
ys_via_the_OpenSSL_Command_L ine.html [Accessed: 5th May
2018].
[35] Bikulov, D. (2013). Hybrid symmetric-asymmetric encryption for
large files [Kenarius Octonotes]. [Online]. Available:
http://bikulov.org/blog/2013/10/12/hybrid-symmetric-asymmetric-
encryption-forlarge-files/ [Accessed: 5th May, 2018].

Big Data Security - Data Privacy - Information Data Leaked Prevention

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Big Data Security - Data Privacy - Information Data Leaked Prevention

Diunggah oleh

Hak Cipta:

Format Tersedia

Big data security – Data Privacy: Pencegahan Kebocoran

Beberapa metode DLP telah dirancang, namun masih sedikit

Ram (2015) [23] menjelaskan bahwa DLP sangat berguna

Menurut Peneti dan Rani (2015b) [23], sistem pencegahan

• What to protect? (data state)

Artefak TI pada fase ini yang diusulkan adalah hybrid dari

in Computer and Communication Engineering, vol. 3, issue 11, pp.

Anda mungkin juga menyukai