Pekerjaan:
PENYEDIAAN LAYANAN SISTEM BIG DATA NASIONAL
1. Latar Belakang
Salah satu misi pembangunan nasional sesuai dengan amanat UndangUndang Nomor 17
Tahun 2007 tentang Rencana Pembangunan Jangka Panjang (RPJP) Nasional 2005 - 2025
adalah mewujudkan bangsa yang berdaya saing. Misi ini dapat dilakukan melalui
pembangunan aparatur negara yang mencakup kelembagaan, ketatalaksanaan, pelayanan
publik, dan sumber daya manusia (SDM) aparatur. Sementara itu, revolusi teknologi
informasi dan komunikasi (TIK) memberikan peluang bagi pemerintah untuk melakukan
inovasi pembangunan aparatur negara melalui penerapan Sistem Pemerintahan Berbasis
Elektronik (SPBE) atau e-government, yaitu penyelenggaraan pemerintahan yang
memanfaatkan TIK untuk memberikan layanan kepada instansi pemerintah, aparatur sipil
negara, pelaku bisnis, masyarakat dan pihak-pihak lainnya. Perkembangan TIK yang sangat
pesat memberi peluang inovasi TIK dalam penyelenggaraan SPBE. Diharapkan
pemanfaatan TIK yang efektif dan efisien dapat dicapai melalui integrasi infrastruktur,
sistem aplikasi, keamanan informasi, dan layanan TIK. Tren TIK di masa depan dapat
diadopsi secara selektif yang disesuaikan dengan kondisi lingkungan internal dan eksternal
Instansi Pusat dan Pemerintah Daerah untuk mendukung SPBE. Di antara teknologi masa
depan yang mendorong perubahan SPBE, salah satunya adalah Big Data.
Big data Analytic telah menjadi kebutuhan seluruh Instansi Pusat dan Pemerintah Daerah
(IPPD). Saat ini beberapa IPPD tengah mengusulkan pembiayaan bagi pembangunan Big
data Analytic untuk kepentingan sektor dan Pemda masing-masing. Pembangunan sistem
Big data Analytic secara masing-masing oleh IPPD memiliki konsekuensi sebagai berikut:
1. Inefisiensi anggaran negara. Satu sistem Big Data Analytic standar setidaknya
membutuhkan anggaran Rp. 25 Milyar. Nilai ini diambil dari data clearance atau
permohonan dukungan yang diajukan ke Kemkominfo oleh BKKBN untuk
penanganan program stunting saja, belum termasuk program lain yang ada di
BKKBN. Dengan asumsi ini, jika setiap Instansi Pusat dan Daerah membutuhkan
anggaran Rp. 25 Miliar untuk kebutuhan belanja Big Data, maka negara akan
mengeluarkan anggaran sangat besar. Bukan hanya biaya pengembangan yang
membengkak, biaya Operational and Maintenance (OM) pun akan membengkak
setiap tahunnya;
2. Inefektivitas analisis data, karena bila setiap IPPD mengembangkan Big Data,
melakukan crawling data dan menganalisa data yang berbedabeda yang berhasil
dikumpulkannya, maka informasi yang dihasilkan berpotensi besar akan berbeda-
beda, tergantung dari sumber datanya. Akibatnya pengambilan keputusan akan
berpotensi tidak tepat, dan berpotensi berbeda hasil analitik dengan Instansi
lainnya. Akibatnya keputusan nasional menjadi kurang bisa dipertanggung
jawabkan.
Untuk itu diperlukan layanan Big Data Nasional dengan konsep berbagi pakai, yang
dapat dimanfaatkan oleh seluruh IPPD. Sesuai dengan amanat Peraturan Presiden
No.95 Tahun 2018 tentang Sistem Pemerintahan Berbasis Elektronik, Kementerian
Komunikasi dan Informatika mendapatkan tugas untuk melakukan implementasi Big
Data Pemerintah pada 2019-2025, dimana pengembangannya diarahkan untuk
menghasilkan teknologi berbagi pakai, atau dapat disebut sebagai Big Data as a Service.
Big Data as a Service bertujuan untuk memberikan layanan kepada setiap pengguna
terkait dengan seluruh kebutuhan Big Data, meliputi Platform as a Service, Data as a
Service, dan Software as a Service. Layanan Platform as a Service adalah layanan
dimana pengguna bisa memanfaatkan platform-platform yang tersedia pada ekosistem
big data, mulai dari kebutuhan untuk mengumpulkan dan menyimpan data,
membersihkan dan mengolah data, sampai ke analisa dan penggunaan data. Selain dari
Platform, disediakan juga Data as a Service yang bertujuan sebagai sarana berbagi pakai
data, sehingga setiap pengguna bisa melihat dan/atau menggunakan data yang mereka
butuhkan dengan persetujuan para pemilik data. Layanan lain yang diberikan berupa
Software as a Service dimana pengguna bisa menggunakan software-software yang
disediakan pada ekosistem Big Data seperti Dashboard Analytic yang bisa digunakan
sebagai sarana monitoring data, baik data yang bersifat mentah (raw data) maupun
data yang sudah di analisa. Layanan-layanan Big Data tersebut meliputi Platform as a
Service, Software as a Service, dan Data as a Service tersebut disediakan dalam satu
Layanan Sistem Big Data Nasional.
Layanan Sistem Big Data Nasional merupakan layanan Big Data as a Service
Pemerintahan, dimana diharapkan seluruh IPPD bisa menggunakan layanan ini sesuai
dengan kebutuhan masing-masing. Sebagai contoh bagi IPPD yang sudah memiliki data
tapi tidak memiliki tools untuk menganalisa data tersebut dapat mengumpulkan data
pada Data Warehouse yang disediakan oleh Layanan Sistem Big Data Nasional. Setelah
data tersebut dikumpulkan, para IPPD terkait dapat mengakses seluruh layanan yang
disediakan melalui Portal Layanan Sistem Big Data Nasional dan mengolah data yang
sudah dikumpulkan melalui Platform dan Software yang sudah disediakan. Sama halnya
jika IPPD membutuhkan data dari instansi lain yang sudah dikumpulkan pada Data
Warehouse Layanan Sistem Big Data Nasional, mereka hanya perlu mendapatkan izin
dari pemilik data untuk bisa langsung mendapatkan dan mengolah data tersebut.
Dengan berjalannya layanan-layanan ini maka akan sangat mempermudah seluruh
IPPD untuk memenuhi seluruh kebutuhan Big Data mereka.
Pengembangan Layanan Sistem Big Data Nasional pada tahun pertama, menitikberatkan
pada pembangunan Big Data as a Service yang bisa mengakomodir seluruh kebutuhan
IPPD, mulai dari kebutuhan untuk mengumpulkan data, membersihkan data, sampai
menganalisa dan menampilkan data ke dalam bentuk yang mudah dipahami. Layanan
Sistem Big Data as Service yang dibangun, menyediakan layanan Platform as a Service
(PaaS), Data as a Service (DaaS), Software as a Service (SaaS) yang masing masing bisa
digunakan oleh IPPD yang membutuhkan sesuai dengan kesiapan instansi masing-masing.
Seluruh layanan ini dapat di akses melalui Portal Big Data nasional yang akan
dikembangkan. Melalui penyediaan Bigdata Analytic as a Service ini, IPPD tidak perlu lagi
mengembangkan layanan sejenis, mereka dapat menggunakan layanan Big Data as a
Service yang disediakan Kemkominfo secara langsung. Dengan terkumpulnya data di
sistem Big Data Nasional, maka informasi yang dihasilkan oleh IPPD akan berdasar pada
sumber yang benar, sehingga informasi yang dihasilkan melalui analytic ini menjadi lebih
akurat.
Pada tahap awal implementasi Big Data, selain penyediaan Sistem Big Data Nasional yang
dapat dimanfaatkan oleh seluruh IPPD, Kementerian Kominfo juga melakukan
implementasi big data analytic untuk 3 use case. Adapun usecase yang direncanakan antara
lain, Big Data untuk layanan informasi stunting BKKBN, monitoring isu publik untuk
keperluan IKP, serta mendukung Superapp dengan menganalisa data yang tersedia. Pada
tahap ini IPPD yang lain juga sudah dapat memanfaatkan Layanan Sistem Big Data Nasional
dan memanfaatkan fitur layanan yang telah disediakan serta melakukan analisa secara
mandiri.
3. Sasaran
Sasaran dari kegiatan ini adalah terbangunnya Layanan Sistem Big Data Nasional berbagai
pakai atau Big Data as a Service (BDaaS) yang akan dimanfaatkan untuk mendukung
layanan SPBE dalam pengambilan keputusan dan penyusunan kebijakan bagi pemerintah,
pelaku usaha, dan masyarakat.
4. Jangka Waktu Pelaksanaan
Jangka waktu pelaksanaan Kegiatan ini adalah 5 (lima) bulan, terhitung sejak di terbitkan
Surat Perintah Mulai Kerja (SPMK)
5. Lingkup Pekerjaan
Di atas adalah gambaran arsitektur high level untuk layanan big data pemerintahan yang
akan dikembangkan, yang di dalamnya menjelaskan mengenai bagaimana interaksi antar
komponen saling terkait satu sama lain. Dengan tujuan untuk dapat memberikan layanan
big data bagi para user pengguna di masa mendatang, sehingga menjadikan layanan ini
dapat diandalkan sebagai pusat penelitian data terpadu yang meniadakan Batasan-
batasan atas ketersediaan data. Yang mengacu kepada data driven solution. Dari gambar
di atas dapat dijabarkan menjadi ruang lingkup pekerjaan yang diantaranya sebagai
berikut:
7. Spesifikasi Teknis
A. Spesifikasi Umum
Teknologi Big Data yang ditawarkan harus memenuhi spesifikasi umum sebagai
berikut:
a. Spesifikasi yang ditawarkan dan konfigurasi yang dilakukan harus
memperhatikan skalabilitas, manajemen dan high-availability (yaitu
konfigurasi sudah mendukung sistem cluster dan adanya redundancy);
b. Penyedia memberikan jaminan bahwa seluruh Platform Big Data Berbasis
Open Source yang ditawarkan dapat berfungsi dengan baik serta memenuhi
seluruh spesifikasi yang ditawarkan dan mendapatkan dukungan teknis dari
penyedia;
c. Penyedia memberikan jaminan bahwa Software Database, NLP Engine yang
ditawarkan merupakan produk enterprise yang dapat berfungsi dengan baik
serta memenuhi seluruh spesifikasi yang dipersyaratkan. Software
Database, NLP Engine yang ditawarkan merupakan produk dengan skema
lisensi perpetual yang akan menjadi ATB Kominfo;
d. Apabila pada saat dilakukan proses serah terima solusi yang disertakan tidak
menghasilkan kebutuhan yang dipersyaratkan maka penyedia wajib
menyesuaikan solusi yang disertakan sehingga sesuai dengan kebutuhan
yang dipersyaratkan;
e. Untuk kepentingan reliabilitas sistem dan ekspansi kapasitas komputasi,
teknologi big data harus memiliki kemampuan clustering yang baik dengan
teknologi Masterless – Cluster; dan
f. Seluruh komponen yang digunakan pada pengembangan, baik yang bersifat
open source maupun licensed, harus dipasang secara on premise. Adapun
komponen yang bersifat licensed harus menggunakan lisensi perpetual dan
tidak terbatas jumlah user.
No Perangkat Spesifikasi
Big Data Platform
1 Spesifikasi Umum Memiliki kemampuan pemrosesan terdistribusi untuk
data set besar pada cluster menggunakan model
pemrograman sederhana.
Memiliki komponen yang mendukung pengoperasian
platform Big Data sebagai berikut:
a. File System terdistribusi dengan fault tolerant
yang tinggi dan di desain untuk dipasang pada
hardware berbudget rendah;
b. Resource Management dan job scheduling/
monitoring pada cluster;
c. Pemrosesan data berukuran besar secara
paralel;
d. Sistem data warehouse terdistribusi dan fault-
tolerant;
e. Kerangka aliran data untuk kasus penggunaan
interaktif dan batch;
f. Analisa data set yang besar menggunakan
bahasa high-level untuk melakukan analisa
data;
g. Transfer data secara bulk;
h. Penjadwalan alur kerja;
i. Service terpusat untuk mengatur informasi
konfigurasi, penamaan, sinkronisasi
terdistribusi dan layanan group;
j. Layanan terdistribusi yang secara efisien
mengumpulkan, menggabungkan dan
memindahkan log data berukuran besar;
k. Search platform;
l. Sistem pengumpulan metric yang
menyediakan penyimpanan dan penarikan
metric yang bersumber dari kluster;
m. Manajemen metadata, governance dan
katalog data;
n. Event store terdistribusi dan proses stream;
o. Keamanan perimeter yang mengatur akses ke
seluruh layanan; dan
p. Memonitor dan mengatur keamanan data
secara komprehensif pada platform.
RDBMS
1 RDBMS Software Sistem Manajemen Basis Data:
• Mampu melakukan data-copying part dalam
operasi backup dan restore dengan
menggunakan storage device
• Memberikan minimal dukungan terhadap SQL
syntax
• Memiliki kemampuan untuk bekerja dengan
spasial dan geodetic data dengan
menggunakan SQL
• Memiliki kemampuan kompresi terhadap
backup copies dari database
• Menyediakan tool untuk melakukan
development database
• Menyediakan solusi high-availability dan
disaster-recovery yang digunakan ketika
terjadi partial site failure
• Memiliki kemampuan untuk mengijinkan user
dalam melakukan proses reorganize terhadap
table dimana tetap memiliki full akses
terhadap tabel tersebut.
• Mendukung kemampuan untuk Materialized
Query Table
• Mampu melakukan beberapa proses, seperti
database query, secara paralel Menyediakan
kemampuan untuk mengizinkan aplikasi tetap
terhubung tanpa mengkonsumsi resource
terhadap database server
• Mendukung kemampuan dalam pemberian
otorisasi terhadap user dengan akses yang
terbatas pada kolom atau baris
• Mampu memberikan resource level yang
sesuai terhadap user dan aplikasi yang berbeda
6202 / 62019
Sub Golongan ini mencakup: - Perencanaan dan perancangan sistem komputer yang
mengintegrasikan perangkat keras komputer, piranti lunak dan teknologi komunikasi Unit
yang diklasifikasikan dalam subgolongan ini dapat menyediakan komponen perangkat
keras dan perangkat lunak dari sistem sebagai bagian dari jasa yang terintegrasi atau
komponen ini dapat disediakan oleh pihak ketiga atau vendor. Unit diklasifikasikan dalam
subgolongan ini pada umumnya menginstal sistem dan melatih serta mendukung
pengguna sistem. Sub Golongan ini juga mencakup: - Penyediaan manajemen dan
pengoperasian sistem komputer dan / atau fasilitas pengolahan data, di tempat klien serta
jasa pendukung terkait - Penyedia yang mengintegrasikan perangkat keras dan perangkat
lunak IoT Subgolongan ini tidak mencakup: - Penjualan terpisah dari perangkat keras atau
piranti lunak komputer, lihat 4651, 4741 - Penerbitan/pengembangan perangkat lunak IoT,
lihat 5820, 6201 - Instalasi terpisah mainframe dan komputer yang sejenis, lihat 3320 -
Instalasi terpisah (setting-up) personal komputer, lihat 6209 - Instalasi piranti lunak
terpisah, lihat 6209.
Kelompok ini mencakup konsultasi yang berkaitan dengan analisis, desain dan
pemrograman dari sistem yang siap pakai lainnya (selain yang sudah dicakup di kelompok
62011 dan 62015). Kegiatan ini biasanya menyangkut analisis kebutuhan pengguna
komputer dan permasalahannya, pemecahan permasalahan, dan membuat perangkat
lunak berkaitan dengan pemecahan masalah tersebut. Termasuk pula penulisan program
sederhana sesuai kebutuhan pengguna komputer. Perancangan struktur dan isi dari,
dan/atau penulisan kode komputer yang diperlukan untuk membuat dan
mengimplementasikan, seperti piranti lunak sistem (pemutakhiran dan perbaikan), piranti
lunak aplikasi (pemutakhiran dan perbaikan), basis data dan laman web. Termasuk
penyesuaian perangkat lunak, misalnya modifikasi dan penyesuaian konfigurasi aplikasi
yang sudah ada sehingga berfungsi dalam lingkungan sistem informasi klien. Kegiatan
penyesuaian perangkat lunak sejenis yang dilaksanakan sebagai bagian yang tak
terpisahkan dari penjualan perangkat lunak dimasukkan dalam subgolongan 47413
9. Keluaran/Output Kegiatan
Kegiatan ini menghasilkan keluaran sebagai berikut:
1. Tersedianya Layanan Big Data Platform sesuai dengan sebagaimana disebutkan
dalam spesifikasi teknis, di antaranya:
a. Data Ingestion
b. Data Storage
c. Data Processing
d. Data Analytics
e. Data Visualization
2. Tersedianya Portal layanan Big Data as a Service Pemerintah yang meliputi:
a. Platform as a Service;
b. Software as a Service;
c. Data as a Service.
3. Tersedianya dukungan/support untuk software selama masa garansi sebagaimana
dipersyaratkan dalam kerangka acuan kerja;
4. Dokumentasi pada Masa Garansi dalam bentuk softcopy yang berisi laporan
bulanan atas insiden dan penyelesaiannya. Laporan disampaikan ke PPK dan DJP
maksimal tanggal 10 bulan berikutnya
10. Laporan
A. Laporan Pendahuluan
Rencana pelaksanaan pekerjaan yang berisi program mutu yang merupakan detail
tahapan pelaksanaan pekerjaan, yang memuat:
• Kesiapan mobilisasi personel, rincian tugas, dan rencana kerja
(timeline)
• Inventarisasi kebutuhan data dan informasi selama pelaksanaan
pekerjaan
• Menyiapkan NDA Kegiatan.
• Penetapan target Laporan dalam bentuk softcopy harus diserahkan
selambat-lambatnya: 14 (empat belas) hari kerja/bulan sejak SPMK
diterbitkan dalam bentuk flashdisk / harddisk.
B. Laporan Antara
Laporan Antara mencakup:
• Laporan instalasi dan konfigurasi software
• Laporan finalisasi rancangan use case Laporan dalam bentuk
softcopy harus diserahkan selambat-lambatnya: 13 minggu sejak
SPMK diterbitkan dalam bentuk flashdisk / harddisk.
C. Laporan Akhir
Laporan akhir penyelesaian pekerjaan yang merupakan rangkuman penyelesaian
tiap tahapan pekerjaan dan hasil Implementasi use case analytic, dan
Dokumentasi Teknis Sistem untuk masing-masing aplikasi dan platform:
• Desain Arsitektur Big Data yang tertuang dalam dokumen High Level
Design (HLD) dan Low Level Design (LLD)
• Konfigurasi Big Data platform
• Manual Penggunaan
• Manual troubleshooting dan maintenance
• Laporan hasil pengujian atas solusi Big Data
• Dokumentasi pelaksanaan Transfer of Knowledge
• dokumen teknis sertifikasi lisensi yang memuat garansi Laporan dan
dokumentasi teknis harus diserahkan selambat-lambatnya: 5 hari
sebelum masa pelaksanaan pekerjaan berakhir berupa softcopy
dalam bentuk flashdisk / harddisk
BAB II Pendekatan Teknis
Data Science
Ada berbagai pendapat tentang definisi data science tapi Profesor Murtaza Haider dari
Ryerson University di Kanada memiliki definisi yang cukup mudah dimengerti: Secara
sederhana dapatlahdikatakan bahwa data science “terjadi” ketika kita bekerja dengan data
untuk menemukan jawaban atas pertanyaan-pertanyaan (tentunya yang relevan dengan
data tersebut). Penekanannya lebih ke data itu sendiri dan bukan tentang sains atau
ilmunya (yang dibutuhkan untuk menganalisisnya). Jika kita memiliki data, lalu kita memiliki
curiousity (rasa ingin tahu) tentang “kandungan” atau “isi” data (yang bermanfaat), lalu
untuk menjawab rasa ingin tahu tersebut kita mempelajari data, melakukan eksplorasi
terhadap data itu, “memanipulasi”-nya, melakukan berbagai hal untuk menganalisis data
tersebut dengan memanfaatkan ilmu dan teknologi tertentu untuk mendapatkan jawaban,
itulah data science! Tujuan akhir dari data science adalah untuk menemukan insights dari
data. Data science dapat dipandang sebagai proses untuk mendestilasi atau mengekstraksi
atau menggali insights dari data. Data yang diolahdapat berukuran sedang hingga sangat
besar. Insights tersebut dapat diibaratkan sebagai emasatau berlian, yang meskipun hanya
sedikit atau berukuran kecil, namun tetap berharga. Insights dapat berupa informasi
penting maupun model-model yang dibuat dari data yang akan bermanfaat dalam
mengambil keputusan. Insights yang ingin digali dari data perlu dimulai denganrasa keingin-
tahuan yang kuat dari diri sendiri atau dari organisasi tempat dia bekerja (berupa
kebutuhan karena ada masalah yang ingin diselesaikan dengan memanfaatkan data).
Berbekal ini, seorang data scientist lalu melakukan berbagai aktivitas dengan
memanfaatkan ilmu danteknologi yang sesuai untuk mendapatkan insights yang disasar.
Pada Gambar 2.1 dapat dilihat tahapan kegiatan data science, yang dapat diuraikan
sebagaiberikut:
1. Pendefinisian masalah. Masalah yang didefinisikan berasal dari kebutuhan
organisasi yangharus dicari jawaban solusi dari data (insight). Jika kebutuhan bersifat
umum, maka perlu dirumuskan insight spesifik yang akan digali yang relefan dengan
kebutuhan tersebut.
2. Pengumpulan data. Data yang dikumpulkan adalah data yang dibutuhkan untuk
mendapatkan insight sesuai definisi masalah. Pengumpulan data dapat dilakukan
dari berbagai sumber dengan format dan ukuran sesuai kebutuhan.
3. Eksplorasi dan penyiapan data. Setelah data terkumpul, seluruh komponen data
perlu dipelajari dengan seksama. Misalnya, jika data berbentuk sebuah tabel, maka
makna dan nilai tiap kolom harus dipahami. Untuk memahami data yang cukup
kompleks dan berukuranbesar, seringkali perlu dibuat visualisasi, kadang juga perlu
komputasi statistik untuk mendapatkan ringkasan data (mencari rata-rata, median,
minimum, maksimum juga distribusi data). Data juga harus diperiksa, karena
seringkali data hasil pengumpulan tersebut masih “kotor”, berisi nilai yang salah
atau ada yang hilang. Maka data perlu dicek, apakah semua
nilai konsisten, benar atau tidak menyimpang. Jika data perlu diperbaiki, dalam
kasus-kasustertentu perbaikan data dapat dilakukan dengan memanfaatkan konsep
statistika. Untuk datatertentu, mungkin juga perlu dilakukan “transformasi”, yaitu
mengubah nilai data ke bentuk yang dibutuhkan dengan tidak menghilangkan
maknanya. Untuk menyiapkan data final (berupa fitur-fitur yang siap untuk
diumpankan ke teknik atau algoritma analisis data yang akan digunakan), seringkali
dia juga perlu memilah-milah, memilih data.
4. Analisis Data. Menganalisis data dengan memanfaatkan berbagai teknik/ algoritma,
teknologi dan tools. Berdasarkan insight yang akan digali dipilih teknik/ algoritma yang
sesuai,dapat berasal dari algoritma Machine Learning (ML) yang merupakan sub set
dari Artificial Intelligence (AI). Beberapa teknik yang umum digunakan seperti:
klasifikasi, klastering, regresi, deep learning, korelasi, dan lainnya.
5. Pengkomunikasian hasil. Pengkomunikasian dapat dilakukan dengan berbagai
teknik visualisasi hasil analisis, seperti story telling, dashboard, grafik-grafik sesuai
dengan insight yang ingin dikomunikasikan.
Untuk melaksanakan tahapan-tahapan data science, perlu dukungan teknologi dan tools
analisisdata seperti dapat dilihat pada Gambar 2.2.
Saat ini secara defacto terdapat platform umum yang digunakan dalam pemrosesan big
data berbasis Hadoop, yang disebut sebagai Hadoop Ecosystem seperti dapat dilihat pada
Gambar 2.6.
Pada Gambar 2.6 dapat dilihat bahwa komponen dasar dari ekosistem Hadoop adalah
teknologi Hadoop. Hadoop menyediakan teknologi penyimpanan dan pemrosesan
terdistribusi (paralel) pada komputer-komputer komoditas yang terhubung dalam
jaringan (sering disebut cluster). Inti(core) dari Hadoop adalah Hadoop Distributed File
System (HDFS) untuk menangani penyimpanan data terdistribusi dan Map Reduce untuk
pemrosesan data terdistrubusi yang dilakukan pada komputer (node of cluster) tempat
data disimpan, dan Yarn (Yet AnotherResource Negotiator) untuk mengelola sumberdaya
(resources) termasuk penjadwalan job (Holmes, 2012). Untuk menyelesaikan berbagai
persoalan komputasi, Hadoop didukung oleh berbagai teknologi yang berhubungan/
memanfaatkan teknologi inti tersebut, seperti Flume, Hbase, Hive, Zookeeper, R, Mahout,
Pig, Oozie, Sqoop dan lainnya. Pada tabel 1 dapat dilihat fungsi dari setiap komponen pada
Hadoop Ecosystem pada Gambar 2.6.
Berdasarkan survey dari Gartner pada tahun 2021 produk DA Platform di pasar dunia
seperti pada Gambar 2.7. Pemimpin di pasar internasional masih dipegang oleh SAS dan
IBM. Sementara di kuadran visioner (dengan fitur yang lengkap) ada pemain kuat
Microsoft dan Google. Namun demikian di kalangan peneliti populer KNIME dan
RapidMiner yang memiliki versi open source software (OSS), yaitu KNIME (GPLv3),
RapidMiner (AGPL untuk 1 processor).
Gambar 2.7 Gartner Magic Quadrant untuk Platform Data Science dan Machine Learning(DSML)8
Pada Gambar 2.8.a dapat dilihat bahwa, komponen yang berwarna hijau muda dengan
garis putus-putus adalah platform KOMINFO, sedangkan komponen di luar platform
KOMINFO diberi berwarna biru.
Di dalam platform KOMINFO, ada komponen yang sudah ada (eksisting) berwarna merah
muda, maupun komponen yang saat ini sedang dikembangkan (berwarna abu-abu), yaitu
Sistem Katalog Data KOMINFO. Komponen yang akan dikembangkan dalam dokumen SRS
ini (in scope) ditandai berwarna hijau, yaitu Sistem DA & DE KOMINFO.
Berikut ini adalah komponen platform KOMINFO yang sudah ada (tersedia), antar lain:
1. Portal Data, adalah bagian dari Portal KOMINFO untuk akses portal oleh Pengguna
Terdaftar (memerlukan login), yaitu: Sekretariat KOMINFO, Pembina Data, Wali Data,
Produsen Data, dan Pengguna Data
2. IM/AAA (Identity Management/ Autentication Autorization Accounting) atau SSO
(Single Sign On), merupakan sistem manajemen user dan sistem yang menangani
otentifikasi, otorisasi serta akunting (pertanggungjawaban akses) berupa log audit
trail untuk setiap aktifitaspengguna platform KOMINFO.
3. DMS (Data Management System) adalah sistem yang menyediakan fasilitas
penyimpanan data baik terstruktur (basis data) maupun tidak terstruktur (file). Saat
ini platform KOMINFOdilengkapi dengan DMS berbasis CKAN Open Data. DMS CKAN
Open Data juga memiliki fitur harvesting data dari Portal Open Data IPD lain.
Berikut ini adalah komponen yang berada di luar platform KOMINFO, merupakan entitas
luar, yang terdiri atas:
1. External Data/ Big Data Sources, merupakan sumber data/ big data di luar Platform
KOMINFO. Data ini bisa web (melalui scraping ataupun web service), media sosial
(twitter, facebook, dll),stream, dan basis data lainnya.
2. IM/AAA Nasional, merupakan sistem pengelolaan identitias dan otentifikasi/
otorisasi/ akunting nasional yang memuat identitas semua pengguna SPBE, baik dari
IPD maupun nonIPD yang terdaftar. Komponen ini menyediakan fitur SSO melalui SPLP
yang dapat dimanfaatkan untuk otentifikasi pengguna sekala nasional.
3. SPLP (Sistem Penghubung Layanan Pemerintah) merupakan gerbang untuk pertukaran
1. Sistem DA & DE KOMINFO dapat diakses oleh Pengguna Terdaftar melalui Portal Data,
denganmemanfaatkan SSO dari IM/AAA.
2. Sistem DA & DE KOMINFO dapat mengakses Sistem Katalog Data KOMINFO, baik
untuk kode referensi/ data induk, profiling data sumber, dan menyebarluaskan hasil
analisis.
3. Sistem DA & DE KOMINFO dapat mengakses data/ big data dari sumber ekternal.
4. Sistem DA & DE KOMINFO memanfaatkan layanan penyimpanan data yang disediakan
oleh DMS untuk menyimpan data-data konfigurasi dan hasil analisis. Penyimpanan big
data dilakukan pada media tersendiri (berbasis HDFS).
5. Sistem DA & DE KOMINFO dapat mengakses data set sebagai sumber dari Portal Data
IPD dengan akses user melalui SSO yang disediakan oleh IM/AAA Nasional melalui
SPLP.
Pada Gambar 2.8.b dapat dilihat arsitektur lebih detail, yang berfokus pada Sistem DA &
DE KOMINFO.
Berikut ini adalah komponen/ modul dari Sistem DA & DE KOMINFO dikendalikan oleh
komponen utama KOMINFO DA & DE Controller. Modul-modul tersebut antara lain:
menyimpan big data, Yarn untuk pemrosesan batch (map-reduce) dan Spark
pemrosesan online yang berbasis memori. Kedua komponen pemroses ini
didukung oleh komponen ecosystem lain, seperti: Flume, Kafka, Sqoop, Hbase,
Hive, Zookeeper, R, Mahout, Pig, Oozie, Spark ML, Spark Stream, Spark
GraphX, dan lainnya sesuai kebutuhan KOMINFO.
b. DA Platform, yaitu software platform untuk analisis data sesuai dengan fitur-
fitur sesuai dengan tahapan/ siklus data science, mulai pendefinisian masalah,
pengumpulan data, eksplorasi dan pembersihan data, analisis data, visualisasi
data. DA Platform dapat mengakses metadata dari Sistem Katalog Data
KOMINFO dan data set sebagai sumber analisis dari Portal Data IPD melalui
SPLP. Analisis yang dapat dilakukan dapat memanfaatkan teknik/ algoritma
internal, atau teknik/ algoritma yang disediakan oleh Hadoop Ecosystem,
seperti Spark ML (distributed machine learning library), Spark Graph X (untuk
analisis graph), library R untuk analisis, dan sejenisnya. Hasil analisis dapat
disimpan pada basis data Hasil Analisis dan disebarluaskan melalui Sistem
Katalog Data KOMINFO. DA Platform dapat mengakses data/ big data dari
sumber eksternal dan disimpan Hadoop Ecosystem dengan memanfaatkan
komponen-komponennya, seperti kafka (untuk data stream), flume dan sqoop
untuk basis data dan file.
c. DE Platform, yaitu software platform untuk memproses data warehouse, OLAP
Cube, BI Report dan Dashboard untuk eksekutif. DE Platform juga dapat
mengakses metadata dari Sistem Katalog Data KOMINFO dan data set sebagai
sumber data untuk dimasukkan ke Data Warehouse untuk keperluan analisis
OLAP. Hasil analisis berupaBI Report dan Dashboard juga dapat disebarluaskan
melalui Sistem Katalog Data KOMINFO. DE Platform juga dapat berinteraksi
dengan DA Platform terutama model-model analisis yang dapat dipakai
mengkonstruksi dashboard eksekutif sesuai dengan Use Case.
3. Fungsionalitas Produk
Fungsionalitas produk Sistem DA & DE KOMINFO terbagi ke dalam 2 kelompok, yaitu:
5. Lingkungan Operasional
5.1 Operating System (OS)
Sistem DA & DE KOMINFO akan berjalan pada VPS yang digunakan oleh Portal KOMINFO
yang berjalan di atas VPS server milik PDN Kominfo dengan OS Linux Ubuntu Version
20.04. Jika dibutuhkan akan diadakan penambahan VPS sesuai dengan kebutuhan
sistem
5.2 Database
Database yang dipergunakan adalah database bersifat open soure yaitu PostgreSQL
dengan tambahan Plugin GIS untuk data geospasial. Database harus memiliki
redundancy dan bersifat High Availability.
5.3 Web Server
Web Server yang dipergunakan adalah web server yang bersifat open source dan
dilakukan loadbalancing agar menjaga high availability
5.4 Docker
Software yang akan dipergunakan harus dapat berjalan diatas Docker dan dikelola
menggunakanKubernetes.
5.5 Devops Tools
Memiliki Devops Tools yang dapat mempercepat modular rapid deployment dan dapat
me- rollback kembali sistem ke state sebelumnya jika ditemukan.
5.6 Platform KOMINFO
Sistem DA & DE KOMINFO yang dikembangkan harus dapat berinteraksi dengan platform
KOMINFO, antara lain:
1. Portal Data, adalah bagian dari Portal KOMINFO untuk akses portal oleh Pengguna
Terdaftar (memerlukan login), yaitu: Sekretariat KOMINFO, Pembina Data, Wali Data,
Produsen Data, dan Pengguna Data.
2. IM/AAA (Identity Management/ Autentication Autorization Accounting) atau SSO
(Single Sign On), merupakan sistem manajemen user dan sistem yang menangani
otentifikasi, otorisasi serta akunting (pertanggungjawaban akses) berupa log audit
trail untuk setiap aktifitas pengguna platform KOMINFO.
3. Sistem Katalog Data KOMINFO adalah aplikasi untuk mengelola katalog data nasional
yang dikelola oleh KOMINFO.
4. DMS (Data Management System) adalah sistem yang menyediakan fasilitas
penyimpanan data baik terstruktur (basis data) maupun tidak terstruktur (file). Saat
ini platform KOMINFOdilengkapi dengan DMS berbasis CKAN Open Data. DMS juga
menyediakan sistem harvesting yang memungkinkan melakukan sinkronisasi data
dengan DMS lain yang ada di Portal Data IPD
c. Modul dan Fitur dari Sitem DA & DE KOMINFO dapat dengan mudah dan cepat
diimplementasikanke lingkungan produk dengan menggunakan Devops Tool.
d. Sistem akan diakses dari seluruh wilayah di Indonesia. Oleh karena, Sistem DA & DE
KOMINFO harus dapat diload dari network 3G dan dial up modem.
e. Platform DA dan DE KOMINFO dikembangkan dari platform yang sudah ada dipasaran
yang memenuhi persyaratan sesuai dengan konsep dan tools analitika data sebagai
mana disebutkan pada bagian 2.1
7. Dokumentasi Produk
Dokumentasi produk dan proyek yang harus disiapkan:
1. Lisensi, manual instalasi dan manual penggunaan Platform DA & DE yang diadakan.
2. Contoh kasus data analitik dan dashboard eksekutif yang disepakati dengan
KOMINFO.
7. Rancangan Analisis Data dan Dashboard Eksekutif sesuai Use Case.
8. Dokumen SIT,
9. Dokumen UAT,
1. Bersifat ringan, responsif dan mudah disesuaikan dengan ukuran dari layer
computer dandawai pengguna.
2. Memiliki nuansa corporate color bappenas dan sekretariat KOMINFO.
3. Memiliki Theme dan Layout yang dapat disesuaikan oleh pengguna.
4. Memiliki Digtal Asset berupa Icon dan Gambar yang merepresentasikan mengenai
KOMINFO danIndonesia.
5. Memiliki Search bar, button, Filter Toolbars.
6. Memiliki keseragaman antar halaman dan form
7. Menampilkan pesan pemberitahuan jika suat aksi itu berhasil atau gagal.
Fitur sistem mencakup penjelasan tentang fungsionalitas dari setiap fitur yang telah
didefinisikan pada bagian 2.1 dilengkapi dengan kodifikasi untuk keperluan verifikasi.
Kodifikasi yang digunakan adalah FR<mo.sm.ft>, dengan FR = Functional Requirement
(kebutuhan fungsional),mo = nomor modul, sm = nomor submodul turunannya, ft=nomor
fitur turunan. Fitur sistem dapatdilihat pada Tabel 2.
FR2.1.5 SQL Database Interface Menangani fungsionalitas akses data berbasis SQL untuk
data warehouse di atas platform Hadoop (Hive)
FR2.1.6 Library ML Batch Menyediakan library machine learning untuk
menemukan pola bernilai pada data set yang ada diHDFS
(Mahout)
FR2.1.7 Impor/ Ekspor data Menyediakan fungsionalitas import/ ekspor data dari
HDFS/HBase ke RDBMS/Data Warehouse (Sqoop)
FR2.1.8 Memindahkan/ ingest data Menyediakan fungsionalitas untuk mengumpulkan,
besar mengagregasi, dan menangani pemindahan dan ingest
data besar ke HDFS (Flume)
FR2.1.9 Library ML Online Menyediakan library machine learning, graph untuk
proses online di memori (Spark ML, Spark Graph X, Spark
SQL)
FR2.1.10 Mengumpulkan data Menyediakan fungsionalitas download data stream
Stream dengan keepatan tinggi (Storm, Spark Steam)
FR2.1.13 Fungsionalitas Big Data Fungsionalitas lain yang disepakati untuk kebutuhan
lainnya khusus.
a. Pengiriman Data
b. Penyimpanan Data
1. Data konfigurasi dan hasil analisis disimpan pada basis data DMS CKAN Open Data.
2. Big Data disimpan pada infrastruktur cluster berbasis HDFS, baik secara langsung
sebagai file, atau sebagai basis data yang berjalan di atas HDFS, seperti HBase,
Casandra, dan Hadoop Ecosystem lainnya.
3. Back-end server hanya bisa diakses oleh administrator yang terauthentikasi
c. Standar Keamanan
1. Memenuhi standar keamanan BSSN.
2. Menggunakan pendekatan Zero Tolerance.
3. Memenuhi standar keamanan Content Security Policy.
4. Memenuhi standar keamanan CORS.
5. Memenuhi standar keamanan OWASP Security dan Vulnerabilities:
a. Pencegahan SQL Injection
b. Pencegahan Broken Authentication
c. Pencegahan Sensitive Data Exposure
d. Pencegahan XML External Entity Attack
e. Pencegahan Broken Access Control
f. Pencegahan Cross Site Scripting attack
g. Pencegahan Insecure Deserialization
h. Pencegahan System missconfiguration
i. Pencegahan Kompenen yang memiliki Vulnerabilities
j. Pencegahan Insufficient Loging dan Monitoring
2. Program Kerja
RISK ASSSEMENT
No Risk Description Probability Severity/Impact Action Plan
1 Use case tidak Use case yg sudah High High Pendalaman Use
disetujui / berubah di disiapkan dianggap case dengan opsi :
tengah project tidak sesuai konteks - wide but not deep
output yg - deep but not wide
diharapkan
2 Data ingestion gagal ada permasalahan Medium High Penentuan batasan
(data tidak didapat) non teknis yang data yang terukur
atau data tidak tidak dan berkualitas
mencukupi untuk memungkinkan sesuai dengan Use
kebutuhan analisis tarik data case.
data
3 Pengembangan ada masalah di Medium Medium Sesegera mungkin
sistem TI di pengembangan SI melakukan simulasi
lingkungan big data sehingga publishing konten di
bappenas mengalami menyebabkan lingkungan Big Data
kendala kemunduran jadwal Bappenas
4 Pemodelan data ada gap antara low Medium diskusi rutin harian
analitika tidak sesuai konsep keluaran tim data analyst
harapan awal yang ingin dan SME kebijakan
dihasilkan dengan publik untuk
output hasil kesamaan persepsi
pemodelan lewat data dan keluaran
rapidminer studio
5 Perubahan UI / UX di ada requirements Low Medium Pelibatan tim QA
tengah baru setelah pada fase desain
pengembangan didemokan sesuai product
backlog
6 Personel inti ada problem Low low membangun
berkurang di tengah manusiawi keterbukaan dan
project komitmen tim
Ketiga tim di atas didukung oleh tim PMO (Project Management Officer) dan tim QA
(Quality Assurance).
Product backlog adalah acuan hasil akhir dari sebuah proyek yang didefinisikan dalam
Product backlog Items (PBI) dan Definition of Done (DoD) yang ditunjukkan pada table
berikut :
PRODUCT BACKLOG
# Product backlog Items (PBI) Definition of Done (DoD)
1 Identifikasi awal (user requirement analysis)
1.1 Identifikasi kriteria dan lokasi sampel Kriteria data dan matriks lokasi sampel data
data
1.2 Rincian alasan pemilihan Alasan pemilihan dari poin 1.1
1.3 Penjelasan ketersediaan data dan Matriks data yang dibutuhkan dan informasi ketersediaan
informasi data dan informasi
1.4 Rancangan awal analysis Rancangan awal use case sesuai konstuksi template
"stunting"
Berdasarkan uraian metodologi yang diselaraskan dengan tahapan kegiatan dan ruang
lingkup kegiatan, maka program kerja untuk pekerjaan ini dapat diuraikan dalam tahap-
tahap sebagai berikut.
Lisensi Software RapidMiner ini dapat di install berdasarkan onpremise
f) Pelatihan
Lingkup Pekerjaan
ID Uraian Kegiatan
f-1 User dapat mengoperasikan aplikasi secara benar dan sesuai alur proses
f-2 Admin telah memahami cara maintenance aplikasi
3. Jadwal Pelaksanaan
Penyediaan Layanan Sistem Big Data Nasional di Direktorat Layanan Aplikasi Informatika
Pemerintahan Direktorat Jenderal Aplikasi Informatika Kementerian Komunikasi dan
Informatika Republik Indonesiaadalah selama 5 (Lima) Bulan kalender dengan rincian
sebagai berikut:
Setelah membaca kerangka acuan kerja kami memahami apa yang di butuhkan oleh
Kementerian Komunikasi dan Informatika, kami menawarkan aplikasi Rapidminer adalah
solusi yang terbaik dan sudah dapat memenuhi apa yang ada di spesifikasi KAK.
Rapidminer
RapidMiner merupakan perangakat lunak yang bersifat terbuka (open source). RapidMiner
adalah sebuah solusi untuk melakukan analisis terhadap data mining, text mining dan
analisis prediksi. RapidMiner menggunakan berbagai teknik deskriptif dan prediksi dalam
memberikan wawasan kepada pengguna sehingga dapat membuat keputusan yang paling
baik. RapidMiner memiliki kurang lebih 500 operator data mining, termasuk operator untuk
input, output, data preprocessing dan visualisasi. RapidMiner merupakan software yang
berdiri sendiri untuk analisis data dan sebagai mesin data mining yang dapat diintegrasikan
pada produknya sendiri. RapidMiner ditulis dengan munggunakan bahasa java sehingga
dapat bekerja di semua sistem operasi.
RapidMiner sebelumnya bernama YALE (Yet Another Learning Environment), dimana versi
awalnya mulai dikembangkan pada tahun 2001 oleh RalfKlinkenberg, Ingo Mierswa, dan
Simon Fischer di Artificial Intelligence Unit dari University of Dortmund. RapidMiner
didistribusikan di bawah lisensi AGPL (GNU Affero General Public License) versi 3. Hingga
saat ini telah ribuan aplikasi yang dikembangkan mengunakan RapidMiner di lebih dari 40
negara. RapidMiner sebagai software open source untuk data mining tidak perlu diragukan
lagi karena software ini sudah terkemuka di dunia. RapidMiner menempati peringkat
pertama sebagai Software data mining pada polling oleh KDnuggets, sebuah portal data-
mining pada 2010-2011. RapidMiner menyediakan GUI (Graphic User Interface) untuk
merancang sebuah pipeline analitis. GUI ini akan menghasilkan file XML )Extensible Markup
Language) yang mendefenisikan proses analitis keingginan pengguna untuk diterpkan ke
data. File ini kemudian dibaca oleh RapidMiner untuk menjalankan analis secara otomatis.
Instalasi Software
System Requirement
Sebelum melakukan instalasi software RapidMiner, terdapat beberapa spesifikasi minimal
yang yang harus dimiliki komputer pengguna. Spesifikasi minimal bergantung pada
komputer dan sistem operasi yang akan diinstal. Berikut ini beberapa spesifikasi minimal
yang dibutuhkan software RapidMiner:
1. Sistem Operasi
RapidMiner merupakan software yang multiplatform, sehingga software ini dapat
dijalankan pada berbagai sistem operasi. Berikut ini beberapa jenis sistem operasi
yang dapat diinstal RapidMiner:
Design Perspective
Design Perspective merupakan lingkungan kerja RapidMiner. Dimana Design Perspective
ini merupakan perspective utama dari RapidMiner yang digunakan sebagai area kerja untuk
membuat dan mengelola proses analisis. perspective ini memiliki beberapa view dengan
fungsinya masing-masing yang dapat mendukung Anda dalam melakukan proses analisis
data mining. Anda bisa mengganti perspective dengan mengklik salah satu ikon dari tollbar
perspective yang sebelumnya telah dijelaskan. Selain dengan cara tersebut, Anda juga bisa
mengganti perspective dengan mengklik menu view, kemudian pilih perspective, lalu pilih
perspective yang ingin Anda tampilkan.
2. Repository View
Repository View merupakan komponen utama dalam Design Perspective selain
Operator View. View ini dapat Anda gunakan untuk mengelola dan menata proses
Analisis Anda menjadi proyek dan pada saat yang sama juga dapat digunakan sebagai
sumber data dan yang berkaitan dengan meta data.
3. Process View
Process View menunjukkan langkah-langkah tertentu dalam proses analisis dan
sebagai penghubung langkah-langkah tersebut. Anda dapat menambahkan langkah
baru dengan beberapa cara. hubungan diantara langkah-langkah ini dapat dibuat dan
dilepas kembali. Pada dasarnya bekerja dengan RapidMiner ialah mendefinisikan
proses analisis, yaitu dengan menunjukkan serangkaian langkah kerja tertentu. Dalam
RapidMiner, komponen proses ini dinamakan sebagai operator. Operator pada
RapidMiner didefinisikan sebagai beikut:
• Deskripsi dari input yang diharapkan.
• Deskripsi dari output yang disediakan.
• Tindakan yang dilakukan oleh operator pada input, yang akhirnya
mengarah dengan penyediaan output.
• Sejumlah parameter yang dapat mengontrol action performed.
4. Parameter View
Beberapa operator dalam RapidMiner membutuhkan satu atau lebih parameter agar
dapat diindikasikan sebagai fungsionalitas yang benar. Namun terkadang parameter
tidak mutlak dibutuhkan, meskipun eksekusi operator dapat dikendalikan dengan
menunjukkan nilai parameter tertentu. Parameter view memiliki toolbar sendiri sama
seperti view-view yang lain. Anda dapat melihat bahwa pada Parameter View ini
terdapat beberapa ikon dan nama-nama operator terkini yang dikuti dengan aktual
parameter.
Sedangkan Comment View merupakan area bagi Anda untuk menuliskan komentar
pada langkah-langkah proses tertentu. Untuk membuat komentar, Anda hanya perlu
memilih operator dan menulis teks di atasnya dalam bidang komentar. Kemudian
komentar tersebut disimpan bersama-sama dengan definisi proses Anda. Komentar ini
dapat berguna untuk melacak langkah-langkah tertentu dalam rancangan nantinya.
Brosur Rapidminer
BAB V Struktur Organisasi