Konsep Big Data Pemerintah

Proposal Teknis
Pekerjaan:
PENYEDIAAN LAYANAN SISTEM BIG DATA NASIONAL
Kementerian Komunikasi dan Informatika Republik Indonesia
Tahun Anggaran 2023

BAB I PENDAHULUAN
1. Latar Belakang
Salah satu misi pembangunan nasional sesuai dengan amanat UndangUndang Nomor 17
Tahun 2007 tentang Rencana Pembangunan Jangka Panjang (RPJP) Nasional 2005 - 2025
adalah mewujudkan bangsa yang berdaya saing. Misi ini dapat dilakukan melalui
pembangunan aparatur negara yang mencakup kelembagaan, ketatalaksanaan, pelayanan
publik, dan sumber daya manusia (SDM) aparatur. Sementara itu, revolusi teknologi
informasi dan komunikasi (TIK) memberikan peluang bagi pemerintah untuk melakukan
inovasi pembangunan aparatur negara melalui penerapan Sistem Pemerintahan Berbasis
Elektronik (SPBE) atau e-government, yaitu penyelenggaraan pemerintahan yang
memanfaatkan TIK untuk memberikan layanan kepada instansi pemerintah, aparatur sipil
negara, pelaku bisnis, masyarakat dan pihak-pihak lainnya. Perkembangan TIK yang sangat
pesat memberi peluang inovasi TIK dalam penyelenggaraan SPBE. Diharapkan
pemanfaatan TIK yang efektif dan efisien dapat dicapai melalui integrasi infrastruktur,
sistem aplikasi, keamanan informasi, dan layanan TIK. Tren TIK di masa depan dapat
diadopsi secara selektif yang disesuaikan dengan kondisi lingkungan internal dan eksternal
Instansi Pusat dan Pemerintah Daerah untuk mendukung SPBE. Di antara teknologi masa
depan yang mendorong perubahan SPBE, salah satunya adalah Big Data.
Big data Analytic telah menjadi kebutuhan seluruh Instansi Pusat dan Pemerintah Daerah
(IPPD). Saat ini beberapa IPPD tengah mengusulkan pembiayaan bagi pembangunan Big
data Analytic untuk kepentingan sektor dan Pemda masing-masing. Pembangunan sistem
Big data Analytic secara masing-masing oleh IPPD memiliki konsekuensi sebagai berikut:
1. Inefisiensi anggaran negara. Satu sistem Big Data Analytic standar setidaknya
membutuhkan anggaran Rp. 25 Milyar. Nilai ini diambil dari data clearance atau
permohonan dukungan yang diajukan ke Kemkominfo oleh BKKBN untuk
penanganan program stunting saja, belum termasuk program lain yang ada di
BKKBN. Dengan asumsi ini, jika setiap Instansi Pusat dan Daerah membutuhkan
anggaran Rp. 25 Miliar untuk kebutuhan belanja Big Data, maka negara akan
mengeluarkan anggaran sangat besar. Bukan hanya biaya pengembangan yang
membengkak, biaya Operational and Maintenance (OM) pun akan membengkak
setiap tahunnya;
2. Inefektivitas analisis data, karena bila setiap IPPD mengembangkan Big Data,
melakukan crawling data dan menganalisa data yang berbedabeda yang berhasil
dikumpulkannya, maka informasi yang dihasilkan berpotensi besar akan berbeda-
beda, tergantung dari sumber datanya. Akibatnya pengambilan keputusan akan
berpotensi tidak tepat, dan berpotensi berbeda hasil analitik dengan Instansi
lainnya. Akibatnya keputusan nasional menjadi kurang bisa dipertanggung
jawabkan.
Untuk itu diperlukan layanan Big Data Nasional dengan konsep berbagi pakai, yang
dapat dimanfaatkan oleh seluruh IPPD. Sesuai dengan amanat Peraturan Presiden
No.95 Tahun 2018 tentang Sistem Pemerintahan Berbasis Elektronik, Kementerian
Komunikasi dan Informatika mendapatkan tugas untuk melakukan implementasi Big
Data Pemerintah pada 2019-2025, dimana pengembangannya diarahkan untuk
menghasilkan teknologi berbagi pakai, atau dapat disebut sebagai Big Data as a Service.
Big Data as a Service bertujuan untuk memberikan layanan kepada setiap pengguna
terkait dengan seluruh kebutuhan Big Data, meliputi Platform as a Service, Data as a
Service, dan Software as a Service. Layanan Platform as a Service adalah layanan
dimana pengguna bisa memanfaatkan platform-platform yang tersedia pada ekosistem
big data, mulai dari kebutuhan untuk mengumpulkan dan menyimpan data,
membersihkan dan mengolah data, sampai ke analisa dan penggunaan data. Selain dari
Platform, disediakan juga Data as a Service yang bertujuan sebagai sarana berbagi pakai
data, sehingga setiap pengguna bisa melihat dan/atau menggunakan data yang mereka
butuhkan dengan persetujuan para pemilik data. Layanan lain yang diberikan berupa
Software as a Service dimana pengguna bisa menggunakan software-software yang
disediakan pada ekosistem Big Data seperti Dashboard Analytic yang bisa digunakan
sebagai sarana monitoring data, baik data yang bersifat mentah (raw data) maupun
data yang sudah di analisa. Layanan-layanan Big Data tersebut meliputi Platform as a
Service, Software as a Service, dan Data as a Service tersebut disediakan dalam satu
Layanan Sistem Big Data Nasional.
Layanan Sistem Big Data Nasional merupakan layanan Big Data as a Service
Pemerintahan, dimana diharapkan seluruh IPPD bisa menggunakan layanan ini sesuai
dengan kebutuhan masing-masing. Sebagai contoh bagi IPPD yang sudah memiliki data
tapi tidak memiliki tools untuk menganalisa data tersebut dapat mengumpulkan data
pada Data Warehouse yang disediakan oleh Layanan Sistem Big Data Nasional. Setelah
data tersebut dikumpulkan, para IPPD terkait dapat mengakses seluruh layanan yang
disediakan melalui Portal Layanan Sistem Big Data Nasional dan mengolah data yang
sudah dikumpulkan melalui Platform dan Software yang sudah disediakan. Sama halnya
jika IPPD membutuhkan data dari instansi lain yang sudah dikumpulkan pada Data
Warehouse Layanan Sistem Big Data Nasional, mereka hanya perlu mendapatkan izin
dari pemilik data untuk bisa langsung mendapatkan dan mengolah data tersebut.
Dengan berjalannya layanan-layanan ini maka akan sangat mempermudah seluruh
IPPD untuk memenuhi seluruh kebutuhan Big Data mereka.
Gambar Layanan Sistem Big Data Nasional
Pengembangan Layanan Sistem Big Data Nasional pada tahun pertama, menitikberatkan
pada pembangunan Big Data as a Service yang bisa mengakomodir seluruh kebutuhan
IPPD, mulai dari kebutuhan untuk mengumpulkan data, membersihkan data, sampai
menganalisa dan menampilkan data ke dalam bentuk yang mudah dipahami. Layanan
Sistem Big Data as Service yang dibangun, menyediakan layanan Platform as a Service
(PaaS), Data as a Service (DaaS), Software as a Service (SaaS) yang masing masing bisa
digunakan oleh IPPD yang membutuhkan sesuai dengan kesiapan instansi masing-masing.
Seluruh layanan ini dapat di akses melalui Portal Big Data nasional yang akan
dikembangkan. Melalui penyediaan Bigdata Analytic as a Service ini, IPPD tidak perlu lagi
mengembangkan layanan sejenis, mereka dapat menggunakan layanan Big Data as a
Service yang disediakan Kemkominfo secara langsung. Dengan terkumpulnya data di
sistem Big Data Nasional, maka informasi yang dihasilkan oleh IPPD akan berdasar pada
sumber yang benar, sehingga informasi yang dihasilkan melalui analytic ini menjadi lebih
akurat.
Pada tahap awal implementasi Big Data, selain penyediaan Sistem Big Data Nasional yang
dapat dimanfaatkan oleh seluruh IPPD, Kementerian Kominfo juga melakukan
implementasi big data analytic untuk 3 use case. Adapun usecase yang direncanakan antara
lain, Big Data untuk layanan informasi stunting BKKBN, monitoring isu publik untuk
keperluan IKP, serta mendukung Superapp dengan menganalisa data yang tersedia. Pada
tahap ini IPPD yang lain juga sudah dapat memanfaatkan Layanan Sistem Big Data Nasional
dan memanfaatkan fitur layanan yang telah disediakan serta melakukan analisa secara
mandiri.
2. Maksud dan Tujuan

Maksud dari kegiatan ini adalah Menerapkan sistem Big Data as a Services (BDaaS) pada
pemerintahan yang terjaga keberlangsungannya guna mengurangi beban kerja
administrasi pada layanan publik untuk memecahkan permasalahan yang kompleks serta
memberi dukungan pengambilan keputusan dan penyusunan kebijakan bagi pemerintah,
pelaku usaha, dan masyarakat.
3. Sasaran
Sasaran dari kegiatan ini adalah terbangunnya Layanan Sistem Big Data Nasional berbagai
pakai atau Big Data as a Service (BDaaS) yang akan dimanfaatkan untuk mendukung
layanan SPBE dalam pengambilan keputusan dan penyusunan kebijakan bagi pemerintah,
pelaku usaha, dan masyarakat.
4. Jangka Waktu Pelaksanaan
Jangka waktu pelaksanaan Kegiatan ini adalah 5 (lima) bulan, terhitung sejak di terbitkan
Surat Perintah Mulai Kerja (SPMK)
5. Lingkup Pekerjaan

Di atas adalah gambaran arsitektur high level untuk layanan big data pemerintahan yang
akan dikembangkan, yang di dalamnya menjelaskan mengenai bagaimana interaksi antar
komponen saling terkait satu sama lain. Dengan tujuan untuk dapat memberikan layanan
big data bagi para user pengguna di masa mendatang, sehingga menjadikan layanan ini
dapat diandalkan sebagai pusat penelitian data terpadu yang meniadakan Batasan-
batasan atas ketersediaan data. Yang mengacu kepada data driven solution. Dari gambar
di atas dapat dijabarkan menjadi ruang lingkup pekerjaan yang diantaranya sebagai
berikut:
Lingkup Pekerjaan Umum

1. Perancangan penyediaan layanan sistem big data nasional;
a. Melakukan Gathering Informasi terkait Pekerjaan ini mencakup Kebutuhan
data pemerintahan yang bersifat publik, Milestone kegiatan, kebutuhan
analisis;
b. Melakukan Analisa informasi;
c. Menyampaikan rencana implementasi pengembangan big data
pemerintahan secara holistic dan disepakati Bersama dengan steering
committee; dan
d. Melengkapi dan menyampaikan desain arsitektur implementasi layanan
sistem Big data nasional yang meliputi:
• Desain arsitektur dari sisi teknologi (panduan) yang akan dimiliki oleh
layanan big data nasional
• Desain arsitektur dari sisi infrastruktur yang akan dimiliki oleh
layanan big data nasional
2. Menyediakan solusi software secara on premise yang memenuhi kriteria spesifikasi
umum dan teknis yang dibutuhkan untuk Pengadaan Sistem Big Data;
3. Melakukan implementasi, konfigurasi, dan pengujian software serta memastikan
seluruh software terpasang dan berfungsi dengan baik sesuai dengan spesifikasi
yang ditawarkan;
4. Memberikan layanan dukungan terkait operasionalisasi sistem Big Data selama
masa kontrak, yang mencakup tapi tidak terbatas pada:
a. Melakukan pemeriksaan berkala/preventive maintenance (PM) setiap 3
(tiga) bulan sekali dan menyampaikan laporan PM;
b. Melakukan perbaikan apabila terjadi kendala pada software Big Data dan
operating Sistem yang digunakan;
c. Melakukan upgrade versi/ update patches/bug fixing software Big Data; dan
d. Memberikan rekomendasi terkait pengembangan atau peningkatan
performance software dan infrastruktur Big Data.
5. Melakukan Instalasi pada Pusat Data yang disediakan; dan
6. Menyediakan dukungan tenaga ahli yang berkompeten dalam melakukan proses
implementasi dan alih pengetahuan sistem Big Data sesuai dengan persyaratan
tenaga ahli yang tercantum.
Lingkup Pekerjaan Khusus

A. Pembangunan dan Implementasi Big Data Platform
1. Penyediaan data lake di dalam big data platform, yang mampu
menampung data unstructured, semi structured dan terstruktur;
2. Penyediaan data warehouse di dalam big data platform;
3. Penyediaan Data Ingestion di dalam big data platform, yang mampu
melakukan proses ingestion baik yang bersifat realtime streaming
dan batch processing;
4. Penyediaan data Flow di dalam platform big data yang mampu
memproses data dari berbagai sumber;
5. Penyediaan web based notebook di dalam big data platform, yang
dapat membuat pemodelan;
6. Penyediaan analytics tools pada big data platform yang dapat
membantu proses analisa;
7. Penyediaan layanan koordinasi untuk mempermudah manajemen
platform;
8. Penyediaan data governance di dalam big data platform;
9. Penyediaan provisioning tools di dalam big data platform;
10. Penyediaan tools scraper dan crawler; dan
11. Melakukan pelaksanaan uji kinerja Platform Big Data (Uji Fungsi, Uji
Integrasi dan Uji Beban).
B. Penyesuaian Platform Big Data Berbasis Open Source
1. Melakukan penyesuaian serta integrasi antar komponen Big Data
Platform berbasis Open Source dalam rangka pemenuhan
kebutuhan penyediaan layanan big data nasional;
2. Melakukan konfigurasi keamanan platform big data yang sesuai
dengan kaidah dan standarisasi keamanan informasi untuk platform
Big Data; dan
3. Melakukan pelaksanaan uji kinerja Platform Big Data berbasis Open
Source (Uji Fungsi, Uji Integrasi dan Uji Beban).
C. Implementasi NLP
1. Penyediaan tools natural language processing berlisensi perpetual
yang memiliki kemampuan pemahaman terhadap bahasa Indonesia;
2. Melakukan proses instalasi NLP sebagai tools layanan sistem big data
nasional;
3. Melakukan proses konfigurasi terhadap tools NLP; dan
4. Melakukan pelaksanaan uji kinerja NLP (Uji Fungsi, Uji Integrasi dan
Uji Beban).
D. Implementasi Dashboard Portal
1. Portal dengan platform single sign-on yang dapat memudahkan
akses terhadap penggunaan tool big data analytics;
2. Pengembangan big data as a services yang memungkinkan setiap
pengguna dapat memilih teknologi berdasarkan kebutuhannya (
yang sudah tertuang di bagian B);
3. Pengembangan teknologi Natural language Processing as a services
yang disediakan secara berbagi pakai;
4. Pengembangan custom dashboard platform as a services;
5. Pengembangan informasi dataset publik bagi pakai;
6. Pengembangan Data Crawling Tools as a services yang disediakan
secara berbagi pakai;
7. Pengembangan manajemen pengguna dan pengaturan umum portal
big data; dan
8. Melakukan pelaksanaan uji kinerja Dashboard Portal Big Data (Uji
Fungsi, Uji Integrasi dan Uji Beban).
E. Implementasi Cluster Enterprise Database
1. Melakukan proses instalasi RDBMS berlisensi perpetual pada 4 node
sebagai support system penyediaan layanan sistem big data
nasional;
2. Melakukan proses konfigurasi terhadap RDBMS; dan
3. Melakukan pelaksanaan uji kinerja Database Big Data (Uji Fungsi, Uji
F. Implementasi Use Case Big Data
1. Membuat 3 implementasi Use Case Big Data Analytics yang disetujui
oleh pemberi pekerjaan;
2. Pemilihan dan pemetaan sumber data dari use-case diambil dari
pusat penyimpanan big data pemerintah setelah melalui
serangkaian proses data pipeline;
3. Melakukan proses testing dan fine-tuning untuk proses analitik dan
use case yang dibuat;
4. Melakukan pendampingan Integrasi dan Konsolidasi Data untuk
K/L/D pengguna use case; dan
5. Melakukan pelaksanaan uji kinerja Use Case Big Data (Uji Fungsi, Uji
Pelaksanaan Kegiatan Pendukung Layanan Sistem Big Data Nasional

A. Berkoordinasi dengan penyedia layanan PDNS dalam rangka implementasi
Sistem Big Data Nasional;
B. Memberikan garansi terhadap sistem layanan berupa pemeliharaan,
pendampingan, pengawasan, perbaikan, dan alih pengetahuan terhadap
sistem minimal selama 12 (dua belas) bulan sejak Berita Acara Serah Terima
(BAST) ditandatangani untuk memastikan sistem yang dibangun berjalan
baik sesuai dengan fungsinya dan menyerahkan jaminan pemeliharaan
sebesar 5% (lima persen) dari nilai kontrak dengan masa berlaku 1 tahun.
Apabila telah ditetapkan penyedia baru pada tahun anggaran 2024 sebelum
masa garansi berakhir, jika dibutuhkan, penyedia berkewajiban
memberikan alih pengetahuan kepada penyedia baru sampai dengan masa
garansi berakhir;
C. Menyusun Dokumentasi Big Data Sebagai Berikut:
1. Desain Arsitektur Big Data Rencana instalasi, konfigurasi, dan
integrasi software Big Data dan komponen pendukungnya yang
tertuang dalam dokumen High Level Design (HLD) dan Low Level
Design (LLD); 2
2. Dokumen Manual Pengguna;
3. Dokumen Manual Instalasi;
4. Dokumentasi konfigurasi;
5. User Acceptance Test (UAT) dan uji kelayakan; dan
6. Dokumen manual troubleshooting dan maintenance.
Seluruh komponen yang sudah dikembangkan menjadi hak milik Kementerian Komunikasi
dan Informatika dan diimplementasikan secara on premise pada Pusat Data Nasional.
6. Referensi Hukum
• Peraturan Presiden No. 95 tahun 2018 tentang Sistem Pemerintahan Berbasis
Elektronik (SPBE);
• Peraturan Pemerintah No. 71 tahun 2019 tentang Penyelenggaraan Sistem dan
Transaksi Elektronik;
• Peraturan Presiden No 18 Tahun 2020 tentang Rencana Pembangunan Jangka
Menengah Nasional 2020-2024;
• Peraturan Menteri PPN Nomor 16 Tahun 2020 tentang Manajemen Data Sistem
Pemerintahan Berbasis Elektronik;
• Peraturan Presiden no. 39 Tahun 2019 tentang Satu Data Indonesia; dan
• Peraturan Presiden Nomor 16 tahun 2018 tentang Pengadaan Barang dan Jasa
beserta aturan perubahannya.
7. Spesifikasi Teknis
A. Spesifikasi Umum
Teknologi Big Data yang ditawarkan harus memenuhi spesifikasi umum sebagai
berikut:
a. Spesifikasi yang ditawarkan dan konfigurasi yang dilakukan harus
memperhatikan skalabilitas, manajemen dan high-availability (yaitu
konfigurasi sudah mendukung sistem cluster dan adanya redundancy);
b. Penyedia memberikan jaminan bahwa seluruh Platform Big Data Berbasis
Open Source yang ditawarkan dapat berfungsi dengan baik serta memenuhi
seluruh spesifikasi yang ditawarkan dan mendapatkan dukungan teknis dari
penyedia;
c. Penyedia memberikan jaminan bahwa Software Database, NLP Engine yang
ditawarkan merupakan produk enterprise yang dapat berfungsi dengan baik
serta memenuhi seluruh spesifikasi yang dipersyaratkan. Software
Database, NLP Engine yang ditawarkan merupakan produk dengan skema
lisensi perpetual yang akan menjadi ATB Kominfo;
d. Apabila pada saat dilakukan proses serah terima solusi yang disertakan tidak
menghasilkan kebutuhan yang dipersyaratkan maka penyedia wajib
menyesuaikan solusi yang disertakan sehingga sesuai dengan kebutuhan
yang dipersyaratkan;
e. Untuk kepentingan reliabilitas sistem dan ekspansi kapasitas komputasi,
teknologi big data harus memiliki kemampuan clustering yang baik dengan
teknologi Masterless – Cluster; dan
f. Seluruh komponen yang digunakan pada pengembangan, baik yang bersifat
open source maupun licensed, harus dipasang secara on premise. Adapun
komponen yang bersifat licensed harus menggunakan lisensi perpetual dan
tidak terbatas jumlah user.
B. Spesifikasi Teknis Software

Total kapasitas Server akan disediakan secara bertahap oleh Kominfo dengan
spesifikasi total:
• Core : 5.088 v
• CPU Memory : 19.840 GB
• Storage : 1.669.000 GB
Dimana setiap bagian memiliki spesifikasi:
No Perangkat Spesifikasi
Big Data Platform
1 Spesifikasi Umum Memiliki kemampuan pemrosesan terdistribusi untuk
data set besar pada cluster menggunakan model
pemrograman sederhana.
Memiliki komponen yang mendukung pengoperasian
platform Big Data sebagai berikut:
a. File System terdistribusi dengan fault tolerant
yang tinggi dan di desain untuk dipasang pada
hardware berbudget rendah;
b. Resource Management dan job scheduling/
monitoring pada cluster;
c. Pemrosesan data berukuran besar secara
paralel;
d. Sistem data warehouse terdistribusi dan fault-
tolerant;
e. Kerangka aliran data untuk kasus penggunaan
interaktif dan batch;
f. Analisa data set yang besar menggunakan
bahasa high-level untuk melakukan analisa
data;
g. Transfer data secara bulk;
h. Penjadwalan alur kerja;
i. Service terpusat untuk mengatur informasi
konfigurasi, penamaan, sinkronisasi
terdistribusi dan layanan group;
j. Layanan terdistribusi yang secara efisien
mengumpulkan, menggabungkan dan
memindahkan log data berukuran besar;
k. Search platform;
l. Sistem pengumpulan metric yang
menyediakan penyimpanan dan penarikan
metric yang bersumber dari kluster;
m. Manajemen metadata, governance dan
katalog data;
n. Event store terdistribusi dan proses stream;
o. Keamanan perimeter yang mengatur akses ke
seluruh layanan; dan
p. Memonitor dan mengatur keamanan data
secara komprehensif pada platform.
2 Data Variety Mampu menangani data terstruktur, tidak terstruktur

dan semi terstruktur.
Mampu menangani format data yang berbentuk CSV,
JSON dan XML.
3 Data Flow / • Mampu melakukan data routing, transformasi
Integration dan mediasi antar sistem.
• Memiliki UI berbasis browser.
• Memiliki penelusuran berbasis Data
Provenance.
• Memiliki penelusuran berbasis Data
Provenance.
• Memiliki pipeline workflow berbasis phyton.
• Memiliki kemampuan Directed Acyclic Graph
(DAG).
• Memiliki kemampuan untuk real-time
streaming data pipeline.
• Memiliki sistem terdistribusi yang terdiri dari
server dan client yang berkomunikasi melalui
TCP.
4 Analytics and • Memiliki kemampuan untuk search, analytics

Visualization dan observability.
• Mendukung penggunaan full text query dan
natural language processing.
• Memiliki kemampuan untuk melakukan
anomaly detection.
• Memiliki kemampuan untuk menggunakan
dan mengeksekusi machine learning model.
• Memiliki fitur dashboard visualisasi.
• Memiliki kemampuan integrasi dengan
datasource berbasis SQL
• Memiliki kemampuan untuk terhubung
dengan infrastruktur data tanpa
membutuhkan ingestion layer.
• Memiliki kemampuan interactive dashboard
5 Security • Menyediakan kemampuan perimeter security

dan memenuhi kebutuhan enterprise security
policy.
• Mendukung penggunaan Single Point of
Access.
• Memiliki kemampuan untuk memonitor dan
mengatur akses keamanan data yang
mencakup seluruh platform.
• Mendukung penggunaan metode autorisasi
seperti Role based access control dan Attribute
based access control.
6 Multi Tenancy • Mampu mengelola dan membagi beban kerja

serta sumberdaya datalake untuk kebutuhan
lintas pengguna layanan multi tenancy.
• Dapat memastikan layanan yang digunakan di
lingkungan multi-tenancy cukup terisolasi dan
dapat berjalan secara independen dari yang
lain pada infrastruktur Kubernetes yang sama.
• Dapat mengatur peran pengguna layanan big
data kedalam beberapa role.
7 Data Scientist tools • Memiliki UI berbasis browser

• Mendukung konsep penggunaan notebook
• Mendukung penggunaan Spark
• Dapat terhubung dengan sumber data berbasis
JDBC secara seamless
• Mendukung penggunaan bahasa Phyton
8 Intelligence • Sistem yang memiliki kemampuan untuk

Crawler berjalan di platform berbasis web, sehingga
dapat diakses dimanapun dan kapanpun
pengguna Inginkan.
• Sistem memiliki kemampuan untuk melakukan
aksi crawling ke sosial media.
• Sistem memiliki kemampuan untuk melakukan
aksi crawling ke portal berita.
• Sistem dapat memiliki manajemen pengaturan
crawling machine
• Sistem dapat melakukan Integrasi melalui API
RDBMS
1 RDBMS Software Sistem Manajemen Basis Data:
• Mampu melakukan data-copying part dalam
operasi backup dan restore dengan
menggunakan storage device
• Memberikan minimal dukungan terhadap SQL
syntax
• Memiliki kemampuan untuk bekerja dengan
spasial dan geodetic data dengan
menggunakan SQL
• Memiliki kemampuan kompresi terhadap
backup copies dari database
• Menyediakan tool untuk melakukan
development database
• Menyediakan solusi high-availability dan
disaster-recovery yang digunakan ketika
terjadi partial site failure
• Memiliki kemampuan untuk mengijinkan user
dalam melakukan proses reorganize terhadap
table dimana tetap memiliki full akses
terhadap tabel tersebut.
• Mendukung kemampuan untuk Materialized
Query Table
• Mampu melakukan beberapa proses, seperti
database query, secara paralel Menyediakan
kemampuan untuk mengizinkan aplikasi tetap
terhubung tanpa mengkonsumsi resource
terhadap database server
• Mendukung kemampuan dalam pemberian
otorisasi terhadap user dengan akses yang
terbatas pada kolom atau baris
• Mampu memberikan resource level yang
sesuai terhadap user dan aplikasi yang berbeda
- Software Sistem Manajemen Tuning Basis data:
• Mendukung kemampuan SQL Tuning,

Automatic SQL Tuning Advisor
• Mendukung Real Time SQL Monitoring, SQL
Profile, SQL Access Advisor, SQL Tuning Sets,
dan Object Reorganization Wizard
Software Sistem Manajemen Diagnosa Basis data:
• Mendukung kemampuan Automatic

Performance Diagnostic, untuk percepatan
resolusi performance bottlenecks
• Mendukung otomatisasi historical performansi
analisa
• Memiliki komprehensif sistem monitoring dan
advanced notifikasi event untuk mengurangi
manajemen cost dan memberikan quality
service yang lebih baik
Sistem mendapatkan dukungan update versi dan

patch selama 1 tahun:
NLP
1 Natural Language • Sistem NLP sentimen analisis dapat berjalan
Processing berbasis API
Sentiment • Sistem NLP sentimen analisis dapat mengenali
kalimat atau paragraf berbasis bahasa
Indonesia
• Sistem NLP sentimen analisis dapat melakukan
scoring system pada kalimat atau paragraf
yang masuk kedalam sistem
• Sistem NLP sentimen analisis dapat
memberikan kesimpulan scoring menjadi
negatif, netral dan positif sentimen.
• Sistem NLP Sentimen Analisis berbasis deep
learning process
• Sistem mendapatkan dukungan update versi
dan patch selama 1 tahun
• Sistem menjadi milik user dan tetap bisa
dipergunakan bila dukungan support sudah
habis masa berlakunya
2 Natural Language • ● Sistem NLP Name Entity Recognizer yang

Processing Name berjalan berbasis API
Entity Recognizer • Sistem NLP Name Entity Recognizer berdasar
pada bahasa Indonesia yang berbasis ejaan
yang baik dan benar
• Sistem NLP Name Entity Recognizer yang dapat
mengklasifikasikan entitas didalam sebuah
naskah diantaranya orang, tempat, organisasi,
Nomor Telepon, dan entitas lainnya yang
dianggap penting
3 Natural Language • Sistem NLP word normalizer yang berjalan

Processing word berbasis API
normalizer • Sistem NLP Word normalizer berdasar pada
bahasa Indonesia yang berbasis ejaan yang
baik dan benar
• Sistem NLP word normalizer dapat mendeteksi
Istilah yang dipendekan, bahasa slang, serta
singkatan-singkatan yang terindikasi bahasa
Indonesia
• Sistem NLP word normalizer, mampu merubah
tata bahasa, Istilah singkatan menjadi satu
kalimat utuh berdasarkan pada ejaan yang baik
dan benar
• Sistem NLP word normalizer sudah berdasar
pada deep learning process
4 Natural Language • Sistem NLP News Topic Classifier yang berjalan

Processing News berbasis API
Topic Classifier • Sistem NLP News Topic Classifier berdasar
pada bahasa Indonesia yang berbasis ejaan
yang baik dan benar
• Sistem NLP News Topic Classifier mampu
melakukan proses pendeteksian topic dari
naskah.
• Sistem NLP News Topic Classifier, mampu
mengklasifikasikan topik kedalam grup yang
telah terdefinisikan.
• Sistem NLP News Topic Classifiersudah
berdasar pada deep learning process
8. Jenis Jasa Lainnya

Pekerjaan ini dilakukan dengan metode belanja jasa lainnya dengan klasifikasi jenis usaha:
6202 / 62019
Sub Golongan ini mencakup: - Perencanaan dan perancangan sistem komputer yang
mengintegrasikan perangkat keras komputer, piranti lunak dan teknologi komunikasi Unit
yang diklasifikasikan dalam subgolongan ini dapat menyediakan komponen perangkat
keras dan perangkat lunak dari sistem sebagai bagian dari jasa yang terintegrasi atau
komponen ini dapat disediakan oleh pihak ketiga atau vendor. Unit diklasifikasikan dalam
subgolongan ini pada umumnya menginstal sistem dan melatih serta mendukung
pengguna sistem. Sub Golongan ini juga mencakup: - Penyediaan manajemen dan
pengoperasian sistem komputer dan / atau fasilitas pengolahan data, di tempat klien serta
jasa pendukung terkait - Penyedia yang mengintegrasikan perangkat keras dan perangkat
lunak IoT Subgolongan ini tidak mencakup: - Penjualan terpisah dari perangkat keras atau
piranti lunak komputer, lihat 4651, 4741 - Penerbitan/pengembangan perangkat lunak IoT,
lihat 5820, 6201 - Instalasi terpisah mainframe dan komputer yang sejenis, lihat 3320 -
Instalasi terpisah (setting-up) personal komputer, lihat 6209 - Instalasi piranti lunak
terpisah, lihat 6209.
Kelompok ini mencakup konsultasi yang berkaitan dengan analisis, desain dan
pemrograman dari sistem yang siap pakai lainnya (selain yang sudah dicakup di kelompok
62011 dan 62015). Kegiatan ini biasanya menyangkut analisis kebutuhan pengguna
komputer dan permasalahannya, pemecahan permasalahan, dan membuat perangkat
lunak berkaitan dengan pemecahan masalah tersebut. Termasuk pula penulisan program
sederhana sesuai kebutuhan pengguna komputer. Perancangan struktur dan isi dari,
dan/atau penulisan kode komputer yang diperlukan untuk membuat dan
mengimplementasikan, seperti piranti lunak sistem (pemutakhiran dan perbaikan), piranti
lunak aplikasi (pemutakhiran dan perbaikan), basis data dan laman web. Termasuk
penyesuaian perangkat lunak, misalnya modifikasi dan penyesuaian konfigurasi aplikasi
yang sudah ada sehingga berfungsi dalam lingkungan sistem informasi klien. Kegiatan
penyesuaian perangkat lunak sejenis yang dilaksanakan sebagai bagian yang tak
terpisahkan dari penjualan perangkat lunak dimasukkan dalam subgolongan 47413
9. Keluaran/Output Kegiatan
Kegiatan ini menghasilkan keluaran sebagai berikut:
1. Tersedianya Layanan Big Data Platform sesuai dengan sebagaimana disebutkan
dalam spesifikasi teknis, di antaranya:
a. Data Ingestion
b. Data Storage
c. Data Processing
d. Data Analytics
e. Data Visualization
2. Tersedianya Portal layanan Big Data as a Service Pemerintah yang meliputi:
a. Platform as a Service;
b. Software as a Service;
c. Data as a Service.
3. Tersedianya dukungan/support untuk software selama masa garansi sebagaimana
dipersyaratkan dalam kerangka acuan kerja;
4. Dokumentasi pada Masa Garansi dalam bentuk softcopy yang berisi laporan
bulanan atas insiden dan penyelesaiannya. Laporan disampaikan ke PPK dan DJP
maksimal tanggal 10 bulan berikutnya
10. Laporan
A. Laporan Pendahuluan
Rencana pelaksanaan pekerjaan yang berisi program mutu yang merupakan detail
tahapan pelaksanaan pekerjaan, yang memuat:
• Kesiapan mobilisasi personel, rincian tugas, dan rencana kerja
(timeline)
• Inventarisasi kebutuhan data dan informasi selama pelaksanaan
pekerjaan
• Menyiapkan NDA Kegiatan.
• Penetapan target Laporan dalam bentuk softcopy harus diserahkan
selambat-lambatnya: 14 (empat belas) hari kerja/bulan sejak SPMK
diterbitkan dalam bentuk flashdisk / harddisk.
B. Laporan Antara
Laporan Antara mencakup:
• Laporan instalasi dan konfigurasi software
• Laporan finalisasi rancangan use case Laporan dalam bentuk
softcopy harus diserahkan selambat-lambatnya: 13 minggu sejak
SPMK diterbitkan dalam bentuk flashdisk / harddisk.
C. Laporan Akhir
Laporan akhir penyelesaian pekerjaan yang merupakan rangkuman penyelesaian
tiap tahapan pekerjaan dan hasil Implementasi use case analytic, dan
Dokumentasi Teknis Sistem untuk masing-masing aplikasi dan platform:
• Desain Arsitektur Big Data yang tertuang dalam dokumen High Level
Design (HLD) dan Low Level Design (LLD)
• Konfigurasi Big Data platform
• Manual Penggunaan
• Manual troubleshooting dan maintenance
• Laporan hasil pengujian atas solusi Big Data
• Dokumentasi pelaksanaan Transfer of Knowledge
• dokumen teknis sertifikasi lisensi yang memuat garansi Laporan dan
dokumentasi teknis harus diserahkan selambat-lambatnya: 5 hari
sebelum masa pelaksanaan pekerjaan berakhir berupa softcopy
dalam bentuk flashdisk / harddisk
BAB II Pendekatan Teknis
1. Analitika Data: Konsep dan Tools

Analitika Data atau Data Analytics (DA) mengacu pada proses pengumpulan, pengaturan
dan analisis terhadap himpunan data (data set) yang besar untuk menemukan pola-pola
yang berbeda dan informasi yang penting. Beberapa istilah dan teknologi yang erat
kaitannya denganDA pada era Industri 4.0, antara lain: Data Science, Artificial Inteligence,
Machine Learning, Big Data Analysis, Blockchain.
Data Science
Ada berbagai pendapat tentang definisi data science tapi Profesor Murtaza Haider dari
Ryerson University di Kanada memiliki definisi yang cukup mudah dimengerti: Secara
sederhana dapatlahdikatakan bahwa data science “terjadi” ketika kita bekerja dengan data
untuk menemukan jawaban atas pertanyaan-pertanyaan (tentunya yang relevan dengan
data tersebut). Penekanannya lebih ke data itu sendiri dan bukan tentang sains atau
ilmunya (yang dibutuhkan untuk menganalisisnya). Jika kita memiliki data, lalu kita memiliki
curiousity (rasa ingin tahu) tentang “kandungan” atau “isi” data (yang bermanfaat), lalu
untuk menjawab rasa ingin tahu tersebut kita mempelajari data, melakukan eksplorasi
terhadap data itu, “memanipulasi”-nya, melakukan berbagai hal untuk menganalisis data
tersebut dengan memanfaatkan ilmu dan teknologi tertentu untuk mendapatkan jawaban,
itulah data science! Tujuan akhir dari data science adalah untuk menemukan insights dari
data. Data science dapat dipandang sebagai proses untuk mendestilasi atau mengekstraksi
atau menggali insights dari data. Data yang diolahdapat berukuran sedang hingga sangat
besar. Insights tersebut dapat diibaratkan sebagai emasatau berlian, yang meskipun hanya
sedikit atau berukuran kecil, namun tetap berharga. Insights dapat berupa informasi
penting maupun model-model yang dibuat dari data yang akan bermanfaat dalam
mengambil keputusan. Insights yang ingin digali dari data perlu dimulai denganrasa keingin-
tahuan yang kuat dari diri sendiri atau dari organisasi tempat dia bekerja (berupa
kebutuhan karena ada masalah yang ingin diselesaikan dengan memanfaatkan data).
Berbekal ini, seorang data scientist lalu melakukan berbagai aktivitas dengan
memanfaatkan ilmu danteknologi yang sesuai untuk mendapatkan insights yang disasar.
Gambar 2.1 Tahapan Data Science
Pada Gambar 2.1 dapat dilihat tahapan kegiatan data science, yang dapat diuraikan
sebagaiberikut:
1. Pendefinisian masalah. Masalah yang didefinisikan berasal dari kebutuhan
organisasi yangharus dicari jawaban solusi dari data (insight). Jika kebutuhan bersifat
umum, maka perlu dirumuskan insight spesifik yang akan digali yang relefan dengan
kebutuhan tersebut.
2. Pengumpulan data. Data yang dikumpulkan adalah data yang dibutuhkan untuk
mendapatkan insight sesuai definisi masalah. Pengumpulan data dapat dilakukan
dari berbagai sumber dengan format dan ukuran sesuai kebutuhan.
3. Eksplorasi dan penyiapan data. Setelah data terkumpul, seluruh komponen data
perlu dipelajari dengan seksama. Misalnya, jika data berbentuk sebuah tabel, maka
makna dan nilai tiap kolom harus dipahami. Untuk memahami data yang cukup
kompleks dan berukuranbesar, seringkali perlu dibuat visualisasi, kadang juga perlu
komputasi statistik untuk mendapatkan ringkasan data (mencari rata-rata, median,
minimum, maksimum juga distribusi data). Data juga harus diperiksa, karena
seringkali data hasil pengumpulan tersebut masih “kotor”, berisi nilai yang salah
atau ada yang hilang. Maka data perlu dicek, apakah semua
nilai konsisten, benar atau tidak menyimpang. Jika data perlu diperbaiki, dalam
kasus-kasustertentu perbaikan data dapat dilakukan dengan memanfaatkan konsep
statistika. Untuk datatertentu, mungkin juga perlu dilakukan “transformasi”, yaitu
mengubah nilai data ke bentuk yang dibutuhkan dengan tidak menghilangkan
maknanya. Untuk menyiapkan data final (berupa fitur-fitur yang siap untuk
diumpankan ke teknik atau algoritma analisis data yang akan digunakan), seringkali
dia juga perlu memilah-milah, memilih data.
4. Analisis Data. Menganalisis data dengan memanfaatkan berbagai teknik/ algoritma,
teknologi dan tools. Berdasarkan insight yang akan digali dipilih teknik/ algoritma yang
sesuai,dapat berasal dari algoritma Machine Learning (ML) yang merupakan sub set
dari Artificial Intelligence (AI). Beberapa teknik yang umum digunakan seperti:
klasifikasi, klastering, regresi, deep learning, korelasi, dan lainnya.
5. Pengkomunikasian hasil. Pengkomunikasian dapat dilakukan dengan berbagai
teknik visualisasi hasil analisis, seperti story telling, dashboard, grafik-grafik sesuai
dengan insight yang ingin dikomunikasikan.
Untuk melaksanakan tahapan-tahapan data science, perlu dukungan teknologi dan tools
analisisdata seperti dapat dilihat pada Gambar 2.2.
Gambar 2.2 Teknologi dan Tools Analisis Data2

Artificial Intelligence (AI), Machine Learning (ML) dan Blockchain
AI atau kecerdasan buatan, merujuk pada istilah yang digunakan untuk kecerdasan mesin
yang menirukan sistem kecerdasan manusia. Kecerdasan buatan diperoleh dari proses
pembelajaranmesin (Machine Learning atau ML). ML merujuk pada penerapan algoritma
pembelajaran yang diterapkan pada suatu data set untuk menghasilkan model hasil
belajar. Model hasil ini dapat digunakan untuk memprediksi interpretasi dari suatu
masukan data dari event/ kejadian tertentu. Untuk menghasilkan model yang akurat,
diperlukan tersedianya data set (korpus data) yang besar. Semakin besar data yang
mewakili seluruh kemungkinan kejadian, maka sebagai akurat model yang dihasilkan. Ada
2 metode ML, yaitu supervised (seperti klasifikasi) dan unsupervised learning (seperti
clustering). Deep learning merupakan varian dari ML yang meniru proses jaringan syaraf
manusia (Artificial Neural Network - ANN) untuk proses belajar yang kompleks. Analisis
yang melibatkan node syaraf tiruan yang banyak dan berlapis-lapis, serta hubungan yang
kompleks memerlukan proses paralel sehingga dapat dipercepat menggunakan Graphics
Processing Unit (GPU) selain menggunakan Central Processing Unit (CPU) umum. Saat ini
juga berkembang teknologi Blockchain yang memungkinkan menyimpan data secara
terdistribusi tanpa koordinator dengan mekanisme sinkronisasi secara independent, dan
diperkuat dengan teknik enkripsi dalam mengamankan datanya. Model distribusi ini dapat
meningkatkan kinerja MLjika diimplementasikan di atas arsitektur Blockchain.
Big Data Analysis

Big data merupakan istilah yang digunakan untuk menyatakan data yang memiliki
karakteristik 3V, yaitu Volume, Velocity dan Variety yang tinggi, yang diilustrasikan seperti
pada Gambar 2.3. Definisi tinggi pada 3V merujuk pada hukum Moore 3(beradaptasi
dengan kebutuhan dan perkembangan teknologi). Namun demikian saat ini ukuran
volume tinggi dari big data di atas terabytes, sehingga memerlukan media penyimpanan
yang besar dan teknik/ algoritma untuk memprosesnya. Sedangkan ukuran velocity yang
tinggi berasosiasi dengan stream atau high volume movement seperti data spasial, citra
satelit dan sejenisnya, sehingga memerlukan metode/ teknik untuk menanganinya.
Sedangkan variety yang tinggi berkaitan dengan banyaknya sumber dan ragam struktur
data (terstruktur, semi terstruktur dan tidak terstruktur), serta ragam format sehingga
perlu teknologi tertentu untuk mengintegrasikannya.
Gambar 2.3 Karakteristik Big Data4
Konsep hirarki data–information–knowledege–wisdom (DIKW) atau sering disebut

sebagai wisdom hierarchy (Gambar 2.4) memberikan alasan yang masuk akal mengapa
fenomena big data begitu berkembang. Dengan besarnya potensi data yang ada saat ini
dan di masa depan, maka besar juga potensi informasi yang tersedia untuk ditransformasi
menjadi pengetahuan (knowledge) sehingga dapat mengoptimalkan pengambilan
keputusan (wisdom).
Gambar 2.4 Hirarki Wisdom5

Mengingat adanya kebutuhan khusus dalam pemrosesan big data sesuai dengan
karakteristik 3V tersebut, maka dibutuhkan platform pemrosesan seperti dapat
dilihat pada Gambar 2.5.
Gambar 2.5 Platform Pemrosesan Big Data6
Saat ini secara defacto terdapat platform umum yang digunakan dalam pemrosesan big
data berbasis Hadoop, yang disebut sebagai Hadoop Ecosystem seperti dapat dilihat pada
Gambar 2.6.
Gambar 2.6 Hadoop Ecosystem7
Pada Gambar 2.6 dapat dilihat bahwa komponen dasar dari ekosistem Hadoop adalah
teknologi Hadoop. Hadoop menyediakan teknologi penyimpanan dan pemrosesan
terdistribusi (paralel) pada komputer-komputer komoditas yang terhubung dalam
jaringan (sering disebut cluster). Inti(core) dari Hadoop adalah Hadoop Distributed File
System (HDFS) untuk menangani penyimpanan data terdistribusi dan Map Reduce untuk
pemrosesan data terdistrubusi yang dilakukan pada komputer (node of cluster) tempat
data disimpan, dan Yarn (Yet AnotherResource Negotiator) untuk mengelola sumberdaya
(resources) termasuk penjadwalan job (Holmes, 2012). Untuk menyelesaikan berbagai
persoalan komputasi, Hadoop didukung oleh berbagai teknologi yang berhubungan/
memanfaatkan teknologi inti tersebut, seperti Flume, Hbase, Hive, Zookeeper, R, Mahout,
Pig, Oozie, Sqoop dan lainnya. Pada tabel 1 dapat dilihat fungsi dari setiap komponen pada
Hadoop Ecosystem pada Gambar 2.6.
Tabel 1 Hadoop Ecosystem Component Function

No Component Function
1 Hadoop HDFS A distributed file system for reliably storing huge amounts of
unstructured, semi-structured and structured data in the form of files
2 Hadoop A distributed algorithm framework for the parallel processing of
MapReduce largedatasets on HDFS filesystem. It runs on Hadoop cluster but
also
supports other database formats like Cassandra and HBase.
3 Cassandra A key-value pair NoSQL database, with column family
datarepresentation and asynchronous masterless
replication.
4 HBase A key-value pair NoSQL database, with column family data
representation, with master-slave replication. It uses HDFS
asunderlying storage.
5 Zookeeper A distributed coordination service for distributed applications.
It isbased on Paxos algorithm variant called Zab.
6 Pig Pig is a scripting interface over MapReduce for developers who prefer
scripting interface over native Java MapReduce programming.
7 Hive Hive is a SQL interface over MapReduce for developers and analysts
who prefer SQL interface over native Java MapReduce programming.
8 Mahout A library of machine learning algorithms, implemented on top
ofMapReduce, for finding meaningful patterns in HDFS
datasets.
9 Sqoop A tool to import data from RDBMS/DataWarehouse into
HDFS/HBaseand export back.
10 YARN A system to schedule applications and services on an HDFS cluster

and manage the cluster resources like memory and CPU.
11 Flume A tool to collect, aggregate, reliably move and ingest large amounts
ofdata into HDFS.
12 Storm A system to process high-velocity streaming data with 'at least
once'message semantics.
13 Spark An in-memory data processing engine that can run a DAG of
operations. It provides libraries for Machine Learning, SQL
interfaceand near real-time Stream Processing.
14 Kafka A distributed messaging system with partitioned topics for very
highscalability.
15 SolrCloud A distributed search engine with a REST-like interface for full-
textsearch. It uses Lucene library for data indexing.
Data Analytic Platform Tools

Agar dapat melakukan analisis data berbasis AI, khususnya yang mendukung ML dan Big
Data, maka diperlukan Data Analytic Platform (DA Platform). DA Platform harus
mendukung semua siklus analisis data (data science) yang berbasis AI/ML dan Big Data.
Berdasarkan survey dari Gartner pada tahun 2021 produk DA Platform di pasar dunia
seperti pada Gambar 2.7. Pemimpin di pasar internasional masih dipegang oleh SAS dan
IBM. Sementara di kuadran visioner (dengan fitur yang lengkap) ada pemain kuat
Microsoft dan Google. Namun demikian di kalangan peneliti populer KNIME dan
RapidMiner yang memiliki versi open source software (OSS), yaitu KNIME (GPLv3),
RapidMiner (AGPL untuk 1 processor).
Gambar 2.7 Gartner Magic Quadrant untuk Platform Data Science dan Machine Learning(DSML)8
2. Arsitektur Sistem DA & DE KOMINFO

Arsitektur Sistem DA & DE KOMINFO dapat dilihat pada Gambar 2.8. Pada Gambar 2.8.a
dijelaskan arsitektur global (secara umum), yang berfokus pada interaksi dengan sistem
lain yang sudah ada dalam Platform KOMINFO dan sistem eksternal lain. Arsitektur yang
lebih detail dapat dilihat padaGambar 2.8.b yang berfokus pada interaksi modul-modul
internal khususnya terkait dengan penanganan standar metadata.
Pada Gambar 2.8.a dapat dilihat bahwa, komponen yang berwarna hijau muda dengan
garis putus-putus adalah platform KOMINFO, sedangkan komponen di luar platform
KOMINFO diberi berwarna biru.
Di dalam platform KOMINFO, ada komponen yang sudah ada (eksisting) berwarna merah
muda, maupun komponen yang saat ini sedang dikembangkan (berwarna abu-abu), yaitu
Sistem Katalog Data KOMINFO. Komponen yang akan dikembangkan dalam dokumen SRS
ini (in scope) ditandai berwarna hijau, yaitu Sistem DA & DE KOMINFO.
Gambar 2.8.a Arsitektur Global Sistem DA & DE KOMINFO
Berikut ini adalah komponen platform KOMINFO yang sudah ada (tersedia), antar lain:
1. Portal Data, adalah bagian dari Portal KOMINFO untuk akses portal oleh Pengguna
Terdaftar (memerlukan login), yaitu: Sekretariat KOMINFO, Pembina Data, Wali Data,
Produsen Data, dan Pengguna Data
2. IM/AAA (Identity Management/ Autentication Autorization Accounting) atau SSO
(Single Sign On), merupakan sistem manajemen user dan sistem yang menangani
otentifikasi, otorisasi serta akunting (pertanggungjawaban akses) berupa log audit
trail untuk setiap aktifitaspengguna platform KOMINFO.
3. DMS (Data Management System) adalah sistem yang menyediakan fasilitas
penyimpanan data baik terstruktur (basis data) maupun tidak terstruktur (file). Saat
ini platform KOMINFOdilengkapi dengan DMS berbasis CKAN Open Data. DMS CKAN
Open Data juga memiliki fitur harvesting data dari Portal Open Data IPD lain.
Berikut ini adalah komponen yang berada di luar platform KOMINFO, merupakan entitas
luar, yang terdiri atas:
1. External Data/ Big Data Sources, merupakan sumber data/ big data di luar Platform
KOMINFO. Data ini bisa web (melalui scraping ataupun web service), media sosial
(twitter, facebook, dll),stream, dan basis data lainnya.
2. IM/AAA Nasional, merupakan sistem pengelolaan identitias dan otentifikasi/
otorisasi/ akunting nasional yang memuat identitas semua pengguna SPBE, baik dari
IPD maupun nonIPD yang terdaftar. Komponen ini menyediakan fitur SSO melalui SPLP
yang dapat dimanfaatkan untuk otentifikasi pengguna sekala nasional.
3. SPLP (Sistem Penghubung Layanan Pemerintah) merupakan gerbang untuk pertukaran
datanasional antar IPD.

4. Portal Data IPD, merupakan bagian dari portal data yang digunakan untuk berbagi
pakai data yang dihasilkan oleh IPD, baik IPD sebagai Pembina Data (BIG, BPS dan
Kementerian Keuangan), maupun IPD yang lain.
Sistem DA & DE KOMINFO dalam menjalankan fungsinya memanfaatkan (berinteraksi

dengan) komponen internal platform KOMINFO maupun komponen eksternal. Berikut ini
adalah interaksi SistemDA & DE KOMINFO dengan komponen-komponen tersebut, antara
lain:
1. Sistem DA & DE KOMINFO dapat diakses oleh Pengguna Terdaftar melalui Portal Data,
denganmemanfaatkan SSO dari IM/AAA.
2. Sistem DA & DE KOMINFO dapat mengakses Sistem Katalog Data KOMINFO, baik
untuk kode referensi/ data induk, profiling data sumber, dan menyebarluaskan hasil
analisis.
3. Sistem DA & DE KOMINFO dapat mengakses data/ big data dari sumber ekternal.
4. Sistem DA & DE KOMINFO memanfaatkan layanan penyimpanan data yang disediakan
oleh DMS untuk menyimpan data-data konfigurasi dan hasil analisis. Penyimpanan big
data dilakukan pada media tersendiri (berbasis HDFS).
5. Sistem DA & DE KOMINFO dapat mengakses data set sebagai sumber dari Portal Data
IPD dengan akses user melalui SSO yang disediakan oleh IM/AAA Nasional melalui
SPLP.
Pada Gambar 2.8.b dapat dilihat arsitektur lebih detail, yang berfokus pada Sistem DA &
DE KOMINFO.
Gambar 2.8.b Arsitektur Detail Sistem DA & DE KOMINFO
Berikut ini adalah komponen/ modul dari Sistem DA & DE KOMINFO dikendalikan oleh
komponen utama KOMINFO DA & DE Controller. Modul-modul tersebut antara lain:
1. KOMINFO DA & DE Controller, merupakan modul antar muka Sistem DA & DE

KOMINFO dengan PortalData. Modul ini berupa web modul yang dapat berinteraksi
dengan Portal Data dan menjadi end point untuk DA & DE Platform.
2. DA & DE Platform, merupakan software yang diadakan dan diintegrasikan ke Platform
KOMINFO. Platform ini menyiman data Konfigurasi dan Hasil Analisis serta Data
Warehouse (yang diekstrak dari Portal IPD atau internal KOMINFO) untuk keperluan
analisis, report dan dashboard pada DMS yang sudah ada. Platform ini memiliki 3 sub
komponen, yaitu:
a. Hadoop Ecosystem, yang terdiri atas file sistem Hadoop (HDFS) yang bertugas
menyimpan big data, Yarn untuk pemrosesan batch (map-reduce) dan Spark
pemrosesan online yang berbasis memori. Kedua komponen pemroses ini
didukung oleh komponen ecosystem lain, seperti: Flume, Kafka, Sqoop, Hbase,
Hive, Zookeeper, R, Mahout, Pig, Oozie, Spark ML, Spark Stream, Spark
GraphX, dan lainnya sesuai kebutuhan KOMINFO.
b. DA Platform, yaitu software platform untuk analisis data sesuai dengan fitur-
fitur sesuai dengan tahapan/ siklus data science, mulai pendefinisian masalah,
pengumpulan data, eksplorasi dan pembersihan data, analisis data, visualisasi
data. DA Platform dapat mengakses metadata dari Sistem Katalog Data
KOMINFO dan data set sebagai sumber analisis dari Portal Data IPD melalui
SPLP. Analisis yang dapat dilakukan dapat memanfaatkan teknik/ algoritma
internal, atau teknik/ algoritma yang disediakan oleh Hadoop Ecosystem,
seperti Spark ML (distributed machine learning library), Spark Graph X (untuk
analisis graph), library R untuk analisis, dan sejenisnya. Hasil analisis dapat
disimpan pada basis data Hasil Analisis dan disebarluaskan melalui Sistem
Katalog Data KOMINFO. DA Platform dapat mengakses data/ big data dari
sumber eksternal dan disimpan Hadoop Ecosystem dengan memanfaatkan
komponen-komponennya, seperti kafka (untuk data stream), flume dan sqoop
untuk basis data dan file.
c. DE Platform, yaitu software platform untuk memproses data warehouse, OLAP
Cube, BI Report dan Dashboard untuk eksekutif. DE Platform juga dapat
mengakses metadata dari Sistem Katalog Data KOMINFO dan data set sebagai
sumber data untuk dimasukkan ke Data Warehouse untuk keperluan analisis
OLAP. Hasil analisis berupaBI Report dan Dashboard juga dapat disebarluaskan
melalui Sistem Katalog Data KOMINFO. DE Platform juga dapat berinteraksi
dengan DA Platform terutama model-model analisis yang dapat dipakai
mengkonstruksi dashboard eksekutif sesuai dengan Use Case.
3. Fungsionalitas Produk
Fungsionalitas produk Sistem DA & DE KOMINFO terbagi ke dalam 2 kelompok, yaitu:
• KOMINFO DA & DE Controller, memiliki fungsionalitas integrasi dengan Platform

KOMINFO melalui menu “Analitika Data & Dashboard Eksekutif”, sebagai end point
dari DA & DE Platform.
• DA & DE Platform, memiliki fungsionalitas yang terbagi dalam 3 fungsi:
o Hadoop Ecosystem, menyediakan fungsionalitas penyimpanan big data,
pemrosesan big databaik yang bersifat batch maupun online, library untuk machine
learning (ML), dan library untuk akses ke GPU.
o DA Platform, menyediakan fungsionalitas analisis data sesuai dengan siklus data
science, mulai dari pendefinisian masalah, pengumpulan data, ekplorasi dan
penyiapan data, analisis data dan visualisasi data hasil analisis.
o DE Platform, menyediakan fungsionalitas analisis data berbasis OLAP Cube, mulai
dari warehousing, disain skema snowflake, Cube, scorecard, BI Report, Dashboard
4. Kelas dan Karakteristik User

User Sistem DA & DE KOMINFO dikelompokkan ke dalam 4 kelas (roles), antara lain:
1. Kementrian KOMINFO, merupakan pengguna yang ditugaskan sebagai administrator

Sistem DA & DE KOMINFO. Bertugas untuk mengelola pengguna Presiden, Pejabat
Setingkat Menteri dan Peneliti. Selain itu juga sebagai administrator sistem, baik
Hadoop Ecosystem, DA Platform dan DE Platform.
2. Presiden, merupakan pengguna dari Kantor Sekretaris Presiden (KSP) yang dapat
menampilkan dashboard eksekutif dan hasil analisis yang diperuntukkan bagi
Presiden.
3. Pejabat Setingkat Menteri, merupakan pengguna dari Insitusi Pusat (IP) yaitu
Pimpinan IP atau Wali Data IP yang ditunjuk sebagai perwakilan dari Pimpinan IP. User
ini dapat menampilkan dashboard eksekutif dan hasil analisis yang diperuntukkan bagi
IP nya.
4. Peneliti, yaitu pengguna yang ditugaskan untuk melakukan analisis data sebagai data
scientist. Tugas peneliti termasuk untuk membuat dashbord eksekutif dengan
berkoordinasi dengan user yang bersesuaian berdasarkan kebutuhan IP atau
KOMINFO.
5. Lingkungan Operasional
5.1 Operating System (OS)
Sistem DA & DE KOMINFO akan berjalan pada VPS yang digunakan oleh Portal KOMINFO
yang berjalan di atas VPS server milik PDN Kominfo dengan OS Linux Ubuntu Version
20.04. Jika dibutuhkan akan diadakan penambahan VPS sesuai dengan kebutuhan
sistem
5.2 Database
Database yang dipergunakan adalah database bersifat open soure yaitu PostgreSQL
dengan tambahan Plugin GIS untuk data geospasial. Database harus memiliki
redundancy dan bersifat High Availability.
5.3 Web Server
Web Server yang dipergunakan adalah web server yang bersifat open source dan
dilakukan loadbalancing agar menjaga high availability
5.4 Docker
Software yang akan dipergunakan harus dapat berjalan diatas Docker dan dikelola
menggunakanKubernetes.
5.5 Devops Tools
Memiliki Devops Tools yang dapat mempercepat modular rapid deployment dan dapat
me- rollback kembali sistem ke state sebelumnya jika ditemukan.
5.6 Platform KOMINFO
Sistem DA & DE KOMINFO yang dikembangkan harus dapat berinteraksi dengan platform
KOMINFO, antara lain:
1. Portal Data, adalah bagian dari Portal KOMINFO untuk akses portal oleh Pengguna
Terdaftar (memerlukan login), yaitu: Sekretariat KOMINFO, Pembina Data, Wali Data,
Produsen Data, dan Pengguna Data.
2. IM/AAA (Identity Management/ Autentication Autorization Accounting) atau SSO
(Single Sign On), merupakan sistem manajemen user dan sistem yang menangani
otentifikasi, otorisasi serta akunting (pertanggungjawaban akses) berupa log audit
trail untuk setiap aktifitas pengguna platform KOMINFO.
3. Sistem Katalog Data KOMINFO adalah aplikasi untuk mengelola katalog data nasional
yang dikelola oleh KOMINFO.
4. DMS (Data Management System) adalah sistem yang menyediakan fasilitas
penyimpanan data baik terstruktur (basis data) maupun tidak terstruktur (file). Saat
ini platform KOMINFOdilengkapi dengan DMS berbasis CKAN Open Data. DMS juga
menyediakan sistem harvesting yang memungkinkan melakukan sinkronisasi data
dengan DMS lain yang ada di Portal Data IPD
5.7 Sistem Penghubung Layanan Pemerintah (SPLP)

Merupakan gerbang untuk pertukaran data nasional antar IPD yang dikelola oleh
Kementerian Komunikasi dan Informatika RI.
5.8 Portal Data IPD
Merupakan bagian dari Portal yang digunakan untuk berbagi pakai data yang dihasilkan
oleh IPD. Portal yang dimaksud mencakup BIG, BPS, Kementerian Keuangan dan IPD
lainnya.
5.9 Sumber Data Eksternal (External Data/ Big Data Sources)
Merupakan sumber data/ big data di luar Platform KOMINFO. Data ini bisa berupa web
(melalui web scraping ataupun web service), media sosial (twitter, facebook, dll), stream,
dan basis data lainnya.
6. Design and Implementation Constraints

a. Sistem DA & DE KOMINFO akan berbasiskan Web maka Portal KOMINFO dapat
berjalan di berbagai tipeweb browser komputer dan dawai mlik mpengguna. Contoh:
Mozilla Firefox, Microsoft Edge,Safari, Google Chrome, Safari.
b. Disain UI/UX dari Sistem DA & DE KOMINFO harus memenuhi prinsip
responsivness design
sehingga kompatibel dengan perangkat desktop dan mobile.
c. Modul dan Fitur dari Sitem DA & DE KOMINFO dapat dengan mudah dan cepat
diimplementasikanke lingkungan produk dengan menggunakan Devops Tool.
d. Sistem akan diakses dari seluruh wilayah di Indonesia. Oleh karena, Sistem DA & DE
KOMINFO harus dapat diload dari network 3G dan dial up modem.
e. Platform DA dan DE KOMINFO dikembangkan dari platform yang sudah ada dipasaran
yang memenuhi persyaratan sesuai dengan konsep dan tools analitika data sebagai
mana disebutkan pada bagian 2.1
7. Dokumentasi Produk
Dokumentasi produk dan proyek yang harus disiapkan:
1. Lisensi, manual instalasi dan manual penggunaan Platform DA & DE yang diadakan.
2. Contoh kasus data analitik dan dashboard eksekutif yang disepakati dengan
KOMINFO untukmenunjukkan fungsionalitas sistem secara lengkap.

3. Desain UI/UX dan Mockup Antarmuka Sistem DA & DE KOMINFO,
4. Software Requirement Specification,
5. Functional Specification Design,
6. Technical Specification Design, termasuk disian integrasi Platform DA & DE ke Platform
KOMINFO.
7. Rancangan Analisis Data dan Dashboard Eksekutif sesuai Use Case.
8. Dokumen SIT,
9. Dokumen UAT,
10. Manual Pengguna (User Manual),

11. Panduan Administrator (Administrator Guide),
12. Petunjuk Teknis Pelaksanaan Analisis Data dan Dashbord Eksekutif,
13. Coding Code Source untuk integrasi/ kastemisasi,

14. Release Note documentation
8. Asumsi dan Ketergantungan

Asumsi dan ketergantungan yang diterapkan pada SRS ini adalah:
1. Kompatibilitas dengan komponen Platform KOMINFO yang digunakan oleh Sistem DA
& DE KOMINFO
9. Kebutuhan Antarmuka Eksternal

9.1 Antarmuka Pengguna
Antarmuka Pengguna (User Interfaces) memiliki syarat berikut ini:
1. Bersifat ringan, responsif dan mudah disesuaikan dengan ukuran dari layer
computer dandawai pengguna.
2. Memiliki nuansa corporate color bappenas dan sekretariat KOMINFO.
3. Memiliki Theme dan Layout yang dapat disesuaikan oleh pengguna.
4. Memiliki Digtal Asset berupa Icon dan Gambar yang merepresentasikan mengenai
KOMINFO danIndonesia.
5. Memiliki Search bar, button, Filter Toolbars.
6. Memiliki keseragaman antar halaman dan form
7. Menampilkan pesan pemberitahuan jika suat aksi itu berhasil atau gagal.
9.2 Antarmuka Perangkat Keras

Antarmuka Perangkat Keras (Hardware Interfaces):
1. Sistem DA & DE KOMINFO harus dapat mengutilisasi GPU untuk mempercepat
proses analisis.
2. Sistem DA & DE KOMINFO harus dapat mengirimkan dokumen ke Printer untuk dapat
dicetak.
3. Karena Sistem DA & DE KOMINFO akan jalan menggunakan koneksi internet, semua
hardware yang dibutuhkan untuk koneksi ke internet adalah hardware interface yang
diperlukan oleh Sistem DA & DE KOMINFO. contoh: modem, router, Ethernet Cross-
Cable, dan Wifi.
9.3 Antarmuka Perangkat Lunak

Antarmuka Perangkat Lunak (Software Interfaces) dari Sistem DA & DE KOMINFO:
1. Sistem DA & DE KOMINFO diakses melalui Portal KOMINFO, khususnya Portal Data.
2. Sistem DA & DE KOMINFO akan terhubung Sistem Katalog Data KOMINFO dan Portal
Data IPD, sepertiBPS, BIG, Kementerian Keuangan, IP dan ID lainnya.
3. Sistem Sistem DA & DE KOMINFO akan terhubung dengan Portal Jaringan Informasi
GeospasialNasional.
4. Sistem DA & DE KOMINFO akan terhubung dengan Sistem Penghubung Layanan
PemerintahNasional (SPLP) milik Kementerian Komunikasi dan Informatika
5. Sistem CKAN Opendata sebagai dasar dari Sistem DA & DE KOMINFO, khususnya
dalampenyimpanan basis data dan dokumen
9.4 Antarmuka Komunikasi

Antarmuka Komunikasi (Communication Interfaces) yang dipergunakan:
No Kategori Protokol Tipe Protokol
1 Web Browser Secured HTTP (HTTPS)
2 CKAN Open Data HTTPS
3 SPLP HTTPS
10. Fitur Sistem
Fitur sistem mencakup penjelasan tentang fungsionalitas dari setiap fitur yang telah
didefinisikan pada bagian 2.1 dilengkapi dengan kodifikasi untuk keperluan verifikasi.
Kodifikasi yang digunakan adalah FR<mo.sm.ft>, dengan FR = Functional Requirement
(kebutuhan fungsional),mo = nomor modul, sm = nomor submodul turunannya, ft=nomor
fitur turunan. Fitur sistem dapatdilihat pada Tabel 2.
Tabel 2 Spesifikasi Fungsional Fitur Sistem
Kode Sistem/ Subsistem/ Fungsionalitas

Fitur
S1 KOMINFO DA & DE Integrasi dengan Platform KOMINFO melalui menu “Analitika
Controller Data & Dashboard Eksekutif”
FR1.0.1 Halaman Utama User mengakses menu “Analitika Data & Dashboard
Eksekutif” pada Portal Data KOMINFO. Sistem menampilkan
halaman utama yang berisi deskripsi dari “Analitika Data &
Dashboard Eksekutif” dan menampilkan menu
[Analisis Data | Dashboar Eksekutif | Monitor Big Data]
FR1.0.2 Analisis Data User mengakses menu “Analisis Data”. Sistem
memanggil end point dari DA Platform untuk
menampilkan menu utama dari DA Platform.
FR1.0.3 Dashboard Eksekutif User mengakses menu “Dashboard Eksekutif”. Sistem
menampilkan end point dari DE Platform untuk
menampilkan menu utama dari DE Platform.
FR1.0.4 Monitor Big Data User mengakses menu “Monitor Big Data”. Sistem
menampilkan dashboard Hadoop Ecosystem berikut
statusnya (hidup/ mati/ problem)
S2 DA & DE Platform Software Platform untuk Data Analitik dan Dashboard
Eksekutif
S2.1 Hadoop Ecosystem Kumpulan software yang berjalan di atas Hadoop
untuk mendukung analisis big data.
FR2.1.1 Sistem File Terdistribusi Menangani fungsionalitas penyimpanan dan akses
data pada file sistem terdistribusi (Hadoop DistributedFile
System)
FR2.1.2 Pemrosesan Batch Menangani fungsionalitas pemrosesan data secarabatch
ke file sistem (map-reduce)
FR2.1.3 Pemrosesan Online Menangani fungsionalitas pemrosesan online di dalam
memori (spark)
FR2.1.4 NoSQL Database Menangani fungsionalitas CRUD data berbasis NoSQL(HBase)
FR2.1.5 SQL Database Interface Menangani fungsionalitas akses data berbasis SQL untuk
data warehouse di atas platform Hadoop (Hive)
FR2.1.6 Library ML Batch Menyediakan library machine learning untuk
menemukan pola bernilai pada data set yang ada diHDFS
(Mahout)
FR2.1.7 Impor/ Ekspor data Menyediakan fungsionalitas import/ ekspor data dari
HDFS/HBase ke RDBMS/Data Warehouse (Sqoop)
FR2.1.8 Memindahkan/ ingest data Menyediakan fungsionalitas untuk mengumpulkan,
besar mengagregasi, dan menangani pemindahan dan ingest
data besar ke HDFS (Flume)
FR2.1.9 Library ML Online Menyediakan library machine learning, graph untuk
proses online di memori (Spark ML, Spark Graph X, Spark
SQL)
FR2.1.10 Mengumpulkan data Menyediakan fungsionalitas download data stream
Stream dengan keepatan tinggi (Storm, Spark Steam)
FR2.1.11 Messaging Terdistribusi Menyediakan fungsionalitas distributed messaging sistem

dengan skalabilitas tinggi (Kafka)
FR2.1.12 Search Engine Menyediakan fungsionalitas search engine dengan fitur

full-text search (SolrCloud)
FR2.1.13 Fungsionalitas Big Data Fungsionalitas lain yang disepakati untuk kebutuhan
lainnya khusus.
S2.2 DA Platform Software Platform untuk analisis data
FR2.2.1 Identifikasi Masalah Menyediakan fungsionalitas untuk membuat proyek

baru dengan deskripsi masalah dan penangananya
sebagai metadata
FR2.2.2 Pengumpulan Data Menyediakan fungsionalitas untuk mengumpulkan data,
mengakses data dari katalog data dan
memanfaatkan Hadoop Ecosystem.
FR2.2.3 Eksplorasi dan Persiapan Menyediakan fungsionalitas untuk mengeksplorasi data
Data dan menyiapkan data untuk analisis
(pembersihan, menyisipkan data hilang, dengan berbagai
teknik/ algoritma)
FR2.2.4 Analisis Data Menyediakan fungsionalitas untuk mengkonstruksi
model analisis dengan memanfaatkan teknik/ algoritma
yang disediakan internal, maupun memanfaatkan
Hadoop Ecosystem. Model dapat disimpan dengan
format yang dapat digunakan kembali oleh algoritma
analisis data.
FR2.2.5 Visualisasi Data Menyediakan fungsionalitas untuk memvisualisasi data
berbagai mode, baik grafik/ chart dan berbagai jenis data
(text, numerik, graph). Hasil dapat disimpan
sebagai file PDF, JPG atau HTML untuk disebarluaskan.
FR2.2.6 Upload ke Sistem Katalog Menyediakan fungsionalitas untuk mengupload hasil
Data KOMINFO visualisasi data ke Sistem Katalog Data KOMINFO lengkap
dengan metadatanya.
S2.3 DE Platform Software platform untuk dasboard eksekutif
FR2.3.1 Disain Warehouse Menyediakan fungsionalitas mendisain model data

snowflade untuk warehouse.
FR2.3.2 ETL Menyediakan fungsionalitas Extract – Tranform – Load

untuk mentransfer data dari Katalog Data KOMINFO atau
sumber lain ke Warehouse. Sistem dapat memanfaatkan
fitur yang ada di Hadoop Ecosystem.
Demikian juga untuk mentransfer data dari Warehouse
ke OLAP Cube. Mendukung mode full refresh atau

incremental.
FR2.3.3 Disan Cube Menyediakan fungsionalitas untuk mendisain OLAP Cube.
FR2.3.4 Query Multi Dimensi Menyediakan fungsionalitas untuk melakukan analisis

dengan kueri multi dimensi.
FR2.3.5 Disain Dashboard Menyediakan fungsionalitasi mendisain dashboard

dengan penurunan ke komponen-komponen
indikatornya (KPI), termasuk mengelola metadata.
FR2.3.6 Menampilkan Dashboard Menyediakan fungsionalitas untuk menampilkan
dashboard sesuai dengan disain data data yang
berasosiasi dengannya secara realtime.
FR2.3.7 Mendisain BI Report Menyediakan fungsionalitas untuk mendisain laporan
business inteligence berbasis OLAP Cube, termasuk
mengelola metadata.
FR2.3.8 Menampilkan BI Report Menyediakan fungsionalitas untuk menampilkan
laporan dari OLAP Cube dengan kemampuan drill- down
slice-dice.
FR2.3.9 Menyimpan Laporan/ Menyediakan fungsionalitas untuk menyimpan laporan
Dashboard dan dashboard dengan format PDF, JPG atau HTML
FR2.3.10 Upload Laporan/ Menyediakan fungsionalitas untuk menyebarluaskan

Dashboard ke Sistem laporan/ dashboard ke Sistem Katalog Data KOMINFO
Katalog KOMINFO lengkap dengan metadatanya.
11. Kebutuhan Bukan Fungsionalitas Lainnya
11.1 Kebutuhan Performa

1. Sistem harus mampu menangani 10.000 transaksi pada waktu bersamaan.
2. Sistem harus mampu menangani 10.000 concurent user pada waktu bersamaan.
3. Setiap halaman dan form dapat diload dengan waktu kurang dari 2 detik.
4. Durasi dari query dikirim sampai dengan ditampilkan di halaman kurang dari 10 detik.
5. Debug mode secara default dimatikan kecuali untuk keperluan troubleshooting.
11.2 Kebutuhan Keamanan
a. Pengiriman Data
1. Sistem DA & DE KOMINFO harus menggunakan saluran komunikasi aman berbasis

SSL/TLS untukberkomunikasi sistem lain.
2. Sistem DA & DE KOMINFO harus menggunakan saluran komunikasi aman (HTTPS)
untukberkomunikasi dengan Web Browser User.
3. Sistem harus otomatis mengeluarkan pengguna apabila pengguna tidak aktif
dalam jangkawaktu tertentu.
4. Ketika logout, session user harus dimatikan dan cache dihapus.
5. Sistem tidak boleh meninggalkan segala bentuk dan macam Cookies yang
mengandunginformasi rahasia user di computer user.
6. Untuk pertukaran data (interopabilitas) dengan Portal Data IPD menggunakan
tokenotentifikasi yang difasilitasi oleh Portal KOMINFO.
b. Penyimpanan Data
1. Data konfigurasi dan hasil analisis disimpan pada basis data DMS CKAN Open Data.
2. Big Data disimpan pada infrastruktur cluster berbasis HDFS, baik secara langsung
sebagai file, atau sebagai basis data yang berjalan di atas HDFS, seperti HBase,
Casandra, dan Hadoop Ecosystem lainnya.
3. Back-end server hanya bisa diakses oleh administrator yang terauthentikasi
c. Standar Keamanan
1. Memenuhi standar keamanan BSSN.
2. Menggunakan pendekatan Zero Tolerance.
3. Memenuhi standar keamanan Content Security Policy.
4. Memenuhi standar keamanan CORS.
5. Memenuhi standar keamanan OWASP Security dan Vulnerabilities:
a. Pencegahan SQL Injection
b. Pencegahan Broken Authentication
c. Pencegahan Sensitive Data Exposure
d. Pencegahan XML External Entity Attack
e. Pencegahan Broken Access Control
f. Pencegahan Cross Site Scripting attack
g. Pencegahan Insecure Deserialization
h. Pencegahan System missconfiguration
i. Pencegahan Kompenen yang memiliki Vulnerabilities
j. Pencegahan Insufficient Loging dan Monitoring
12. Kebutuhan Lainnya

12.1 Pelatihan dan Sosialisasi
Pendampingan pelaksanaan dan sosialisasi pemanfaatan Sistem DA & DE KOMINFO:
a. Pendampingan dan pelatihan operasionalisasi, pengelolaan, pengembangan, dan
mitigasiSistem DA & DE KOMINFO kepada Tim Sekretariat Satu Data.
b. Sosialisasi pemanfaatan Sistem DA & DE KOMINFO kepada Penyelenggara Satu Data
danPengguna Data Strategis, berdasarkan contoh implementasi yang ada di Use Case.
c. Evaluasi dan pelaporan kesiapan pengelola dan pengguna Sistem DA & DE KOMINFO.
12.2 Warranty Support

Menyediakan warranty support terhadap Sistem DA & DE KOMINFO selama 12 (dua belas)
bulan setelah Berita Acara Serah Terima ditandatangani dengan lingkup menerima dan
mencatat komplain terkait Sistem DA & DE KOMINFO; troubleshooting isu dan problem;
bug fixing; dan pembuatan dan implementasi patches.
BAB III Metodologi
1. Metodologi
2. Program Kerja
2.1 Ikhtisar Proyek

Dari deskripsi ruang lingkup di KAK dibuatkan ikhtisar untuk menyatukan persepsi semua
anggota tim dan dilakukan pembobotan setiap komponen keluaran proyek. Berikut adalah
ikhtisar proyek dan pembobotan yang mengisyaratkan bahwa keluaran yang paling
dominan adalah terkait kajian, sedangkan aspek teknis pendukungnya dilakukan sebagai
simulasi prototyping (purwarupa) untuk memastikan bahwa kajian dapat dikembangkan
dalam lingkungan teknikal big data KOMINFO
Untuk penyelesaian proyek akan dilakukan menggunakan pendekatan scrum sesuai
kerangka kerja berikut:
Gambar 2 - 1 Scrum Framework

Dikarenakan bobot ruang lingkup pekerjaan dominan di aspek kajian maka aktivitas scrum
daily meeting akan dilakukan dalam bentuk diskusi-diskusi pendalaman materi dan
analisis.
Sprint review akan dilakukan dalam durasi 2 mingguan yang akan dilaporkan dalam
Laporan Dwi Mingguan.
2.2 Penilaian Risiko
Tabel 2 - 1 Penilaian Risiko Proyek
RISK ASSSEMENT
No Risk Description Probability Severity/Impact Action Plan
1 Use case tidak Use case yg sudah High High Pendalaman Use
disetujui / berubah di disiapkan dianggap case dengan opsi :
tengah project tidak sesuai konteks - wide but not deep
output yg - deep but not wide
diharapkan
2 Data ingestion gagal ada permasalahan Medium High Penentuan batasan
(data tidak didapat) non teknis yang data yang terukur
atau data tidak tidak dan berkualitas
mencukupi untuk memungkinkan sesuai dengan Use
kebutuhan analisis tarik data case.
data
3 Pengembangan ada masalah di Medium Medium Sesegera mungkin
sistem TI di pengembangan SI melakukan simulasi
lingkungan big data sehingga publishing konten di
bappenas mengalami menyebabkan lingkungan Big Data
kendala kemunduran jadwal Bappenas
4 Pemodelan data ada gap antara low Medium diskusi rutin harian
analitika tidak sesuai konsep keluaran tim data analyst
harapan awal yang ingin dan SME kebijakan
dihasilkan dengan publik untuk
output hasil kesamaan persepsi
pemodelan lewat data dan keluaran
rapidminer studio
5 Perubahan UI / UX di ada requirements Low Medium Pelibatan tim QA
tengah baru setelah pada fase desain
pengembangan didemokan sesuai product
backlog
6 Personel inti ada problem Low low membangun
berkurang di tengah manusiawi keterbukaan dan
project komitmen tim
2.3 Organisasi Scrum

Berikut adalah Scrum Team yang dikelompokkan dalam tiga sub tim yaitu:
- Tim data engineer
- Tim data analyst
- Tim web developer
Ketiga tim di atas didukung oleh tim PMO (Project Management Officer) dan tim QA
(Quality Assurance).
Gambar 2 - 2 Alur Kerja Scrum Team
Tabel 2 - 2 Tugas dan Alat Kerja Tim
Tim Tugas Alat Kerja
Tim Data Engineer Data Ingestion - Etl Tools

- Implementasi data ingestion tools seperti - Apache Nifi
Apache Nifi, tool data scrapper lainnya sebagai - Python Scripts
penunjang - Hadoop Environment
- Penyiapan API Gateway sebagai platform data
integrasi
Big Data Storing
- Data deployment hasil pengambilan data
lewat data ingestion tools ke lingkungan big
data Bappenas
- Manajemen databaase hasil data ingestion
Tim Data Analyst - Identifikasi data eksternal - Rapidminer Studio

- Pengembangan model analitik - Rapidminer Server / AI Hub
- Publikasi ke ai hub - Tableau
- Publikasi dataset hasil analitika ke tableau
server
- Penyusunan rekomendasi bersama SME
Kebijakan Publik
Tim Web Developer - Web Development - Web development tools

- Publikasi sistem informasi (PHP, MySQL, JS, API
- Data integration ke Portal SDI dan Sistem gateway dan teknologi lain
Tim Tugas Alat Kerja
Katalog Data yang relevan

- Implementasi Dashboard
2.4 Product backlog
Product backlog adalah acuan hasil akhir dari sebuah proyek yang didefinisikan dalam
Product backlog Items (PBI) dan Definition of Done (DoD) yang ditunjukkan pada table
berikut :
Tabel 2 - 3 Product backlog
PRODUCT BACKLOG
# Product backlog Items (PBI) Definition of Done (DoD)
1 Identifikasi awal (user requirement analysis)
1.1 Identifikasi kriteria dan lokasi sampel Kriteria data dan matriks lokasi sampel data
data
1.2 Rincian alasan pemilihan Alasan pemilihan dari poin 1.1
1.3 Penjelasan ketersediaan data dan Matriks data yang dibutuhkan dan informasi ketersediaan
informasi data dan informasi
1.4 Rancangan awal analysis Rancangan awal use case sesuai konstuksi template
"stunting"
2 Pengumpulan Data dan Informasi

2.1 Mengumpulkan data dan informasi Penarikan data sukses terkumpul di server hadoop .
sampel data
2.2 Pengelolaan dataset untuk analisa Evaluasi kecukupan data oleh tim data analyst. Jika belum,
berarti masih di tahap 2.1
3 Penyusunan Rancangan Awal
3.1 Rancangan awal model Bagan rancangan awal
3.2 Rancangan awal metodologi Dasar teori, approach, dll
Bagan metodologi penelitian
4 Pembangunan Model
4.1 Analisis identifikasi permasalahan Problem statemen
4.2 Pilihan skenario solusi Skenario solusi (solution concept diagram)
4.3 Pendefinisian model deskriptif Pemodelan di rapidminer, publish di AI Hub
4.4 Pendefinisian model prediktif Pemodelan di rapidminer, publish di AI Hub
4.5 Pendefinisian model preskriptif Pemodelan di rapidminer, publish di ai hub
4.6 Pendefinisian model monitoring dan Pemodelan di rapidminer, publish di AI Hub
evaluasi
5 Pembangunan Sistem Informasi Pendukung Analitika Data
PRODUCT BACKLOG
5.1 Data ingestion 1. Terlaksananya pengambilan data real (elt)
2. Tersedianya fitur aplikasi dengan fungsional
• Mengumpulkan dan mengakuisi data dari beragam
sumber
• Akuisisi dilakukan secara langsung atau periodik
• Akuisisi dapat dilakukan dengan cara batch maupun
real-time
• Akuisisi untuk tipe data terstruktur (structured); tidak
terstruktur (unstructured), dan semi terstruktur (semi
structured).
• Dapat melakukan normalisasi data
• Mampu melakukan proses ETL data;
5.2 Basisdata • Sistem mampu untuk penyimpanan dan pengamanan
secara berstandar
• Sistem mampu menangani data dan informasi sesuai use
case terpilih
5.3 Analitika data Sistem mampu melakukan analisis deskriptif dan prediktif
untuk kumpulan data dan informasi
5.4 Penyajian data Sistem mampu menampilkan analisis deskriptif dan prediktif
serta menyediakan fasilitas interaktif (tools) dari analisis
data dan informasi
6 Purwarupa Use case untuk sektor terpilih
6.1 Use case mendukung P3DN 5 tahun • Penampilan keberjalanan prototype
kedepan • Visualisasi secara lengkap hasil data analitika
6.2 Persetujuan Sektor yang dipilih yang
ditentukan oleh Sekretariat SDI
7 Integrasi dengan Portal SDI dan Sistem Katalog Data
Integrasi dengan Portal SDI - Visualisasi hasil integrasi dengan portal SDI
Integrasi dengan Sistem Katalog Data - Visualisasi hasil integrasi dengan sistem katalog data
8 Penyusunan Hasil Analisis dan Temuan
8.1 Analisis deskriptif Penjelasan analisa deskriptif sedetail mungkin
8.2 Analisis prediktif Penjelasan analisa prediktif sedetail mungkin
8.3 Analisis preskriptif Penjelasan analisa preskriptif sedetail mungkin
Temuan Hasil Analisa Temuan kunci dari hasil analisa yang akan menjadi dasar
rekomendasi
9 Penyusunan Rekomendasi Kebijakan
9.1 Intervensi jangka sangat singkat (6 Penjelasan rekomendasi jangka sangat singkat
bulan)
9.2 Intervensi jangka pendek (1 tahun). Penjelasan rekomendasi jangka sangat singkat
9.3 Intervensi jangka menengah (5 tahun) Penjelasan rekomendasi jangka sangat singkat
9.4 Policy Brief Ikhtisar kebijakan dalam format yang sudah dekat ke
publikasi kebijakan
10 Penulisan Dokumen (Deliverables)
10.1 Laporan Pendahuluan

10.1.1 Bab 1 Pendahuluan
sesuai KAK
10.1.2 Bab 2 Analisa Kebutuhan Awal
10.1.2.1 Kriteria dan Lokasi Sampel Data Diagram dan penjelasan sesuai materi dari tim data analyst
PRODUCT BACKLOG
10.1.2.2 Ketersediaan data dan informasi Diagram dan penjelasan sesuai materi dari tim data analyst
10.1.3 Bab 3 Rancangan Awal Sistem Big Data Analytical
10.1.3.1 Pemilihan Use case Diagram dan penjelasan sesuai materi dari tim data analyst
10.1.3.2 Rancangan awal pemodelan Diagram dan penjelasan sesuai materi dari tim data analyst
10.1.3.3 Rancangan metodologi analisa Diagram dan penjelasan sesuai materi dari tim data analyst
10.1.4 Bab 4 Penutup
10.1.4.1 Uraian penutup Penutup laporan pendahuluan
10.2 Laporan Antara
10.2.1 Bab-1 Pendahuluan
10.2.1.1 Sekilas Use case terpilih Sekilas review dari laporan pendahuluan
10.2.1.2 Kebutuhan lingkungan data dan Diagram dan penjelasan sesuai materi dari tim data analyst
teknologi
10.2.2 Bab 2 Model Data Analytical
10.2.2.1 Model deskriptif Diagram dan penjelasan sesuai materi dari tim data analyst
10.2.2.2 Model prediktif Diagram dan penjelasan sesuai materi dari tim data analyst
10.2.2.3 Model preskriptif Diagram dan penjelasan sesuai materi dari tim data analyst
10.2.2.4 Model monitoring dan evaluasi Diagram dan penjelasan sesuai materi dari tim data analyst
10.2.3 Bab 3 Sistem Informasi Pendukung Data Analytical
10.2.3.1 Spesifikasi fungsional sistem Diagram dan penjelasan sesuai materi dari tim web
developer
10.2.3.2 Desain Rancangan Sistem Informasi Diagram dan penjelasan sesuai materi dari tim web
developer
10.2.3.3 Pengembangan Sistem Informasi Diagram dan penjelasan sesuai materi dari tim web
developer
10.2.4 Bab 4 Purwarupa Use case Terpilih
10.2.4.1 Mekanisme purwarupa Bukti publikasi / visualisasi dari tim web developer
10.2.4.2 Publikasi purwarupa Bukti publikasi / visualisasi dari tim web developer
10.2.5 Bab 5 Penutup
10.2.5.1 Uraian penutup Penutup Laporan Antara
10.3 Laporan Akhir
10.3.1 Bab-1 Pendahuluan
10.3.1.1 Tujuan, Sasaran, Ruang Lingkup Sesuai KAK
10.3.2 Bab 2 Implementasi Big Data Analytical TKDN
10.3.2.1 Use case terpilih Review Use case terpilih
10.3.2.2 Implementasi pemodelan data • Deploy model di rapidminer ke AI Hub
• Visualisasi ke Tableau
10.3.3 Bab 3 Purwarupa Use case
10.3.3.1 Purwarupa sistem informasi Diagram dan penjelasan sesuai materi dari tim web
developer
10.3.4 Bab 4 Hasil Analisis dan Temuan
10.3.4.1 Hasil Analisis deskriptif Diagram dan penjelasan sesuai materi dari tim data analyst
10.3.4.2 Hasil analisis prediktif Diagram dan penjelasan sesuai materi dari tim data analyst
10.3.4.3 Hasil analisis preskriptif Diagram dan penjelasan sesuai materi dari tim data analyst
10.3.4.4 Temuan kunci Diagram dan penjelasan sesuai materi dari tim data analyst
10.3.5 Bab 5 Rekomendasi Kebijakan
10.3.5.1 Dokumen Policy Brief Diagram dan penjelasan sesuai materi dari tim data analyst
10.3.6 Bab 6 Laporan kegiatan Alih Pengetahuan
10.3.6.1 Penjelasan materi alih pengetahuan Diagram dan penjelasan sesuai materi dari tim web
PRODUCT BACKLOG
developer
10.3.6.2 Dokumentasi kegiatan alih Bukti kegiatan oleh tim administrasi proyek
pengetahuan
Berdasarkan uraian metodologi yang diselaraskan dengan tahapan kegiatan dan ruang
lingkup kegiatan, maka program kerja untuk pekerjaan ini dapat diuraikan dalam tahap-
tahap sebagai berikut.
Lisensi Software RapidMiner ini dapat di install berdasarkan onpremise
a) Tahap Pengadaan/belanja Software RapidMiner

Lingkup Pekerjaan
ID Uraian Kegiatan Waktu (hari)
a-1 Belanja Software RapidMiner 1
Output (keluaran) yang dihasilkan

ID Uraian Output (Keluaran)
a-1 Lisensi Software RapidMiner ini dapat di install berdasarkan onpremise
Personil yang terlibat

ID Uraian personil yang terlibat
a-1 Team Leader

Business Analyst
Developer
Ahli Analitika Data
Ahli UI/UX
b) Tahap Setup Proyek dan Integrasi Data

Lingkup Pekerjaan
ID Uraian Kegiatan Waktu (hari)
b-1 Perencanaan Pelaksaaan Pekerjaan 1

b-2 Kick Off Meeting 1
b-3 Integrasi Platform
b-1 Uraian usulan rencana pelaksanaan kegiatan

b-2 Rencana pelaksanaan pekerjaan yang telah disepakati oleh pihak pemberi kerja
dan pelaksana pekerjaan yang meliputi :
- Struktur organisasi Proyek,
- Strategi pelaksanaan Proyek,
- Tata waktu pelaksanaan pekerjaan dan estimasi penyerapan budget
(Persenstase dari nilai proyek),
- Resiko-resiko utama yang mungkin terjadi dan batasan-batasan
- Metode Komunikasi dan Pelaporan
b-3 - Mengintegrasikan Platform DA & DE dengan Sistem Katalog Data SDI
dengan spesifikasi dan ketentuan lainnya yang tertuang dalam dokumen
(SRS)
- Mengintegrasikan Platform DA & DE dengan Sistem Manajemen Pengguna
dengan spesifikasi dan ketentuan lainnya yang tertuang dalam dokumen
(SRS)

b-1 Pengguna Jasa

Team Leader
Business Analyst
Developer
Ahli Analitika Data
Ahli UI/UX
b-2 Pengguna Jasa
Team Leader
Business Analyst
Developer
Ahli Analitika Data
Ahli UI/UX
b-3 Pengguna Jasa
Team Leader
Business Analyst
Developer
Ahli Analitika Data
Ahli UI/UX
c) Assessment dan Analisis

Lingkup Pekerjaan
ID Uraian Kegiatan
c-1 Survey dan diskusi model aplikasi yang akan dikembangkan

c-2 Analisis arsitektur sistem eksisting dan dokumen terkait
c-3 Konfirmasi dan revisi model
c-1 Deskripsi model Aplikasi

c-2 Analisis Arsitektur Sistem
c-3 Rancangan model

c-1 Pengguna Jasa

Team Leader
Business Analyst
Developer
Ahli Analitika Data
Ahli UI/UX
c-2 Pengguna Jasa
Team Leader
Business Analyst
Developer
Ahli Analitika Data
Ahli UI/UX
c-3 Pengguna Jasa
Team Leader
Business Analyst
Developer
Ahli Analitika Data
Ahli UI/UX
d) Tahap Konfigurasi/Custom RapidMiner

Lingkup Pekerjaan
ID Uraian Kegiatan
d-1 Konfigurasi Software Rapidminer

d-1 Software Rapidminer sudah terkonfigurasi disesuaikan dengan kebutuhan user

d-1 Pengguna Jasa

Team Leader
Business Analyst
Developer
Ahli Analitika Data
Ahli UI/UX
e) Tahap Development dan Pengembangan Dashboard Eksekutif

Lingkup Pekerjaan
ID Uraian Kegiatan
e-1 Pengembangan kode program

e-2 User Acceptance Test (UAT)

e-1 Modul-modul aplikasi telah selesai dikembangkan dengan fungsi-fungsi yang

telah siap uji
e-2 Modul-modul selesai diuji, termasuk diantaranya:
• Verifikasi dan Validasi kesesuaian dengan kebutuhan dan rancangan yang
dibuat;
• Modul-modul sistem yang sesuai dengan hasil rancangan

e-1 Pengguna Jasa

Team Leader
Business Analyst
Developer
Ahli Analitika Data
Ahli UI/UX
e-2 Pengguna Jasa
Team Leader
Business Analyst
Developer
Ahli Analitika Data
Ahli UI/UX
f) Pelatihan
Lingkup Pekerjaan
ID Uraian Kegiatan
f-1 Pelatihan user

f-2 Pelatihan admin
f-1 User dapat mengoperasikan aplikasi secara benar dan sesuai alur proses
f-2 Admin telah memahami cara maintenance aplikasi

f-1 Pengguna Jasa

Team Leader
Business Analyst
Developer
Ahli Analitika Data
Ahli UI/UX
f-2 Pengguna Jasa
Team Leader
Business Analyst
Developer
Ahli Analitika Data
Ahli UI/UX
g) Administrasi dan Pelaporan

Lingkup Pekerjaan
ID Uraian Kegiatan
g-1 Penyusunan dan penyerahan laporan pendahuluan

g-2 Penyusunan dan penyerahan laporan antar masa
g-3 Penyusunan dan penyerahan laporan akhir
g-4 Penyusunan dan penyerahan dokumen UAT
g-5 Serah Terima Pekerjaan

g-1 Dokumen Laporan pendahuluan telah diserahkan

g-2 Dokumen laporan antar masa telah diserahkan
g-3 Dokumen laporan akhir telah diserahkan
g-4 Dokumen UAT
g-5 Berita Acara Serah Terima (BAST)

g-1 Pengguna Jasa

Team Leader
Business Analyst
Developer
Ahli Analitika Data
Ahli UI/UX
g-2 Pengguna Jasa
Team Leader
Business Analyst
Developer
Ahli Analitika Data
Ahli UI/UX
g-3 Pengguna Jasa
Team Leader
Business Analyst
Developer
Ahli Analitika Data
Ahli UI/UX
g-4 Pengguna Jasa
Team Leader
Business Analyst
Developer
Ahli Analitika Data
Ahli UI/UX
g-5 Pengguna Jasa
Team Leader
Business Analyst
Developer
Ahli Analitika Data
Ahli UI/UX
3. Jadwal Pelaksanaan
Penyediaan Layanan Sistem Big Data Nasional di Direktorat Layanan Aplikasi Informatika
Pemerintahan Direktorat Jenderal Aplikasi Informatika Kementerian Komunikasi dan
Informatika Republik Indonesiaadalah selama 5 (Lima) Bulan kalender dengan rincian
sebagai berikut:
4. Solusi yang di usulkan
Setelah membaca kerangka acuan kerja kami memahami apa yang di butuhkan oleh
Kementerian Komunikasi dan Informatika, kami menawarkan aplikasi Rapidminer adalah
solusi yang terbaik dan sudah dapat memenuhi apa yang ada di spesifikasi KAK.
Rapidminer
RapidMiner merupakan perangakat lunak yang bersifat terbuka (open source). RapidMiner
adalah sebuah solusi untuk melakukan analisis terhadap data mining, text mining dan
analisis prediksi. RapidMiner menggunakan berbagai teknik deskriptif dan prediksi dalam
memberikan wawasan kepada pengguna sehingga dapat membuat keputusan yang paling
baik. RapidMiner memiliki kurang lebih 500 operator data mining, termasuk operator untuk
input, output, data preprocessing dan visualisasi. RapidMiner merupakan software yang
berdiri sendiri untuk analisis data dan sebagai mesin data mining yang dapat diintegrasikan
pada produknya sendiri. RapidMiner ditulis dengan munggunakan bahasa java sehingga
dapat bekerja di semua sistem operasi.
RapidMiner sebelumnya bernama YALE (Yet Another Learning Environment), dimana versi
awalnya mulai dikembangkan pada tahun 2001 oleh RalfKlinkenberg, Ingo Mierswa, dan
Simon Fischer di Artificial Intelligence Unit dari University of Dortmund. RapidMiner
didistribusikan di bawah lisensi AGPL (GNU Affero General Public License) versi 3. Hingga
saat ini telah ribuan aplikasi yang dikembangkan mengunakan RapidMiner di lebih dari 40
negara. RapidMiner sebagai software open source untuk data mining tidak perlu diragukan
lagi karena software ini sudah terkemuka di dunia. RapidMiner menempati peringkat
pertama sebagai Software data mining pada polling oleh KDnuggets, sebuah portal data-
mining pada 2010-2011. RapidMiner menyediakan GUI (Graphic User Interface) untuk
merancang sebuah pipeline analitis. GUI ini akan menghasilkan file XML )Extensible Markup
Language) yang mendefenisikan proses analitis keingginan pengguna untuk diterpkan ke
data. File ini kemudian dibaca oleh RapidMiner untuk menjalankan analis secara otomatis.
RapidMiner memiliki beberapa sifat sebagai berikut:

• Ditulis dengan bahasa pemrograman Java sehingga dapat dijalankan di berbagai
sistem operasi.
• Proses penemuan pengetahuan dimodelkan sebagai operator trees
• Representasi XML internal untuk memastikan format standar pertukaran data.

• Bahasa scripting memungkinkan untuk eksperimen skala besar dan otomatisasi
eksperimen.
• Konsep multi-layer untuk menjamin tampilan data yang efisien dan menjamin
penanganan data.
• Memiliki GUI, command line mode, dan Java API yang dapat dipanggil dari
program lain.
Beberapa Fitur dari RapidMiner, antara lain:

• Banyaknya algoritma data mining, seperti decision treee dan self-organization
map.
• Bentuk grafis yang canggih, seperti tumpang tindih diagram histogram, tree chart
dan 3D Scatter plots.
• Banyaknya variasi plugin, seperti text plugin untuk melakukan analisis teks.
• Menyediakan prosedur data mining dan machine learning termasuk: ETL
(extraction, transformation, loading), data preprocessing, visualisasi, modelling
dan evaluasi
• Proses data mining tersusun atas operator-operator yang nestable, dideskripsikan
dengan XML, dan dibuat dengan GUI
• Mengintegrasikan proyek data mining Weka dan statistika R
Instalasi Software
System Requirement
Sebelum melakukan instalasi software RapidMiner, terdapat beberapa spesifikasi minimal
yang yang harus dimiliki komputer pengguna. Spesifikasi minimal bergantung pada
komputer dan sistem operasi yang akan diinstal. Berikut ini beberapa spesifikasi minimal
yang dibutuhkan software RapidMiner:
1. Sistem Operasi
RapidMiner merupakan software yang multiplatform, sehingga software ini dapat
dijalankan pada berbagai sistem operasi. Berikut ini beberapa jenis sistem operasi
yang dapat diinstal RapidMiner:
ü Microsoft Windows (x86-32) Windows XP, Windows Server 2003, Windows

Vista, Windows Server 2008, Windows 7
ü Microsoft Windows (x64) Windows XP untuk x64, Windows Server 2003 untuk
x64, Windows Vista untuk x64, Windows Server 2008 untuk x64, Windows 7 untuk
x64
ü Unix sistem 32 atau 64 bit
ü Linux sistem 32 atau 64 bit
ü Apple Macintosh sistem 32 atau 64 bit
Sebagai bahan pertimbangan, kami merekomendasikan untuk penggunaan sistem 64
bit. Hal ini dikarenakan jumlah maksimum yang dapat digunakan oleh RapidMiner
terbatas pada sistem operasi dengan sistem 32, yaitu hanya sebasar 2GB.
2. Java Runtime Environment versi 6

Selain itu, penggunaan server RapidAnalytics dalam kombinasi dengan RapidMiner
dapat memaksimalkan proses analisis pada RapidMiner, meskipun tugas analisis sudah
banyak dapat dijalankan dengan RapidMiner desktop client. Dalam hal ini proses
analisa dirancang dengan RapidMiner, kemudian dieksekusi oleh server
RapidAnalytics.
Design Perspective
Design Perspective merupakan lingkungan kerja RapidMiner. Dimana Design Perspective
ini merupakan perspective utama dari RapidMiner yang digunakan sebagai area kerja untuk
membuat dan mengelola proses analisis. perspective ini memiliki beberapa view dengan
fungsinya masing-masing yang dapat mendukung Anda dalam melakukan proses analisis
data mining. Anda bisa mengganti perspective dengan mengklik salah satu ikon dari tollbar
perspective yang sebelumnya telah dijelaskan. Selain dengan cara tersebut, Anda juga bisa
mengganti perspective dengan mengklik menu view, kemudian pilih perspective, lalu pilih
perspective yang ingin Anda tampilkan.
Gambar Tampilan Design Perspective

Sebagai lingkungan lingkungan kerja, Design Perspective memiliki beberapa view. Berikut
ini beberapa view yang ditampilkan pada Design Perspective:
1. Operator View
Operator View merupakan view yang paling penting pada perspective ini. Semua
operator atau langkah kerja dari RapidMiner disajikan dalam bentuk kelompok hierarki
di Operator View ini sehingga operator-operator tersebut dapat digunakan pada
proses analisis, seperti yang ditunjukkan pada Gambar 2.10. Hal ini akan memudahkan
Anda dalam mencari dan menggunakan operator yang sesuai dengan kebutuhan Anda.
Pada Operator View ini terdapat beberapa kelompok operator sebagai berikut:
• Process Control : Operator ini terdiri dari operator perulangan dan
percabangan yang dapat mengatur aliran proses.
• Utility : Operator bantuan, seperti operator macros, loggin, subproses, dan
lain-lain.
• Repository Access : Kelompok ini terdiri dari operator-operator yang dapat
digunakan untuk membaca atau menulis akses pada repository.
• Import : Kelompok ini terdiri dari banyak operator yang dapat digunakan
untuk membaca data dan objek dari format tertentu seperti file, database,
dan lain-lain.
• Export : Kelompok ini terdiri dari banyak operator yang dapat digunakan untuk
menulis data dan objek menjadi format tertentu.
• Data Transformation : kelompok ini terdiri dari semua operator yang berguna
untuk transformasi data dan meta data.
• Modeling : kolompok ini berisi proses data mining untuk menerapkan model
yang dihasilkan menjadi set data yang baru.
• Evaluation : kelompok ini berisi operator yang dapat digunakan untuk
menghitung kualitas pemodelan dan untuk data baru.
Gambar Kelompok Operator dalam Bentuk Hierarki
2. Repository View
Repository View merupakan komponen utama dalam Design Perspective selain
Operator View. View ini dapat Anda gunakan untuk mengelola dan menata proses
Analisis Anda menjadi proyek dan pada saat yang sama juga dapat digunakan sebagai
sumber data dan yang berkaitan dengan meta data.
3. Process View
Process View menunjukkan langkah-langkah tertentu dalam proses analisis dan
sebagai penghubung langkah-langkah tersebut. Anda dapat menambahkan langkah
baru dengan beberapa cara. hubungan diantara langkah-langkah ini dapat dibuat dan
dilepas kembali. Pada dasarnya bekerja dengan RapidMiner ialah mendefinisikan
proses analisis, yaitu dengan menunjukkan serangkaian langkah kerja tertentu. Dalam
RapidMiner, komponen proses ini dinamakan sebagai operator. Operator pada
RapidMiner didefinisikan sebagai beikut:
• Deskripsi dari input yang diharapkan.
• Deskripsi dari output yang disediakan.
• Tindakan yang dilakukan oleh operator pada input, yang akhirnya
mengarah dengan penyediaan output.
• Sejumlah parameter yang dapat mengontrol action performed.
4. Parameter View
Beberapa operator dalam RapidMiner membutuhkan satu atau lebih parameter agar
dapat diindikasikan sebagai fungsionalitas yang benar. Namun terkadang parameter
tidak mutlak dibutuhkan, meskipun eksekusi operator dapat dikendalikan dengan
menunjukkan nilai parameter tertentu. Parameter view memiliki toolbar sendiri sama
seperti view-view yang lain. Anda dapat melihat bahwa pada Parameter View ini
terdapat beberapa ikon dan nama-nama operator terkini yang dikuti dengan aktual
parameter.
Gambar Tampilan Parameter View

Huruf tebal berarti bahwa parameter mutlak harus didefinisikan oleh analis dan tidak
memiliki nilai default. Sedangkan huruf miring berarti bahwa parameter
diklasifikasikan sebagai parameter ahli dan seharusnya tidak harus diubah oleh pemula
untuk analisis data. Poin pentingnya ialah beberapa parameter hanya ditunjukkan
ketika parameter lain memiliki nilai tertentu.
5. Help & Comment View

Setiap kali Anda memilih operator pada Operator View atau Process View, maka
jendela bantuan dalam Help View akan menunjukkan penjelasan mengenai operator
ini. Penjelasn yang ditampilkan dalam Help View meliputi:
• Sebuah penjelasan singkat mengenai fungsi operator dalam satu atau beberapa
kalimat.
• Sebuah penjelasan rinci mengenai fungsi operator.
• Daftar semua parameter termasuk deskripsi singkat dari parameter, nilai
default (jika tersedia), petunjuk apakah parameter ini adalah parameter ahli
serta indikasi parameter dependensi.
Sedangkan Comment View merupakan area bagi Anda untuk menuliskan komentar
pada langkah-langkah proses tertentu. Untuk membuat komentar, Anda hanya perlu
memilih operator dan menulis teks di atasnya dalam bidang komentar. Kemudian
komentar tersebut disimpan bersama-sama dengan definisi proses Anda. Komentar ini
dapat berguna untuk melacak langkah-langkah tertentu dalam rancangan nantinya.
6. Problem & Log View

Problem View merupakan komponen yang sangat berharga dan merupkan sumber
bantuan bagi Anda selama merancang proses analisis. Setiap peringatan dan pesan
kesalahan jelas ditunjukkan dalam Problem View
. Gambar Problem & Log View
Pada kolom Message, Anda akan menemukan ringkasan pendek dari masalah. Kolom
Location berisi tempat di mana masalah muncul dalam bentuk nama Operator dan
nama port input yang bersangkutan. Kolom Fixes memberikan gambaran dari
kemungkinan solusi tersebut, baik secara langsung sebagai teks (jika hanya ada satu
kemungkinan Solusi) atau sebagai indikasi dari berapa banyak kemungkinan yang
berbeda untuk memecahkan masalah.
BAB IV Spesifikasi Teknis
No Uraian Jenis Type Merk

1. RapidMiner merupakan perangakat lunak Aplikasi Rapidminer Rapidminer
yang bersifat terbuka (open source).
RapidMiner adalah sebuah solusi untuk
melakukan analisis terhadap data mining,
text mining dan analisis prediksi.
RapidMiner menggunakan berbagai teknik
deskriptif dan prediksi dalam memberikan
wawasan kepada pengguna sehingga dapat
membuat keputusan yang paling baik.
Beberapa Fitur dari RapidMiner, antara
lain:
• Banyaknya algoritma data mining,
seperti decision treee dan self-
organization map.
• Bentuk grafis yang canggih, seperti
tumpang tindih diagram histogram,
tree chart dan 3D Scatter plots.
• Banyaknya variasi plugin, seperti text
plugin untuk melakukan analisis teks.
• Menyediakan prosedur data mining
dan machine learning termasuk: ETL
(extraction, transformation
• loading), data preprocessing,
visualisasi, modelling dan evaluasi
• Proses data mining tersusun atas
operator-operator yang nestable,
dideskripsikan dengan XML, dan
dibuat dengan GUI
• Mengintegrasikan proyek data mining
Weka dan statistika R
Brosur Rapidminer

BAB V Struktur Organisasi
Gambar Struktur Organisasi

Konsep Big Data Pemerintah

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Konsep Big Data Pemerintah

Diunggah oleh

Hak Cipta:

Format Tersedia

Proposal Teknis

Kementerian Komunikasi dan Informatika Republik Indonesia

Tahun Anggaran 2023

Gambar Layanan Sistem Big Data Nasional

2. Maksud dan Tujuan

Lingkup Pekerjaan Umum

Lingkup Pekerjaan Khusus

Pelaksanaan Kegiatan Pendukung Layanan Sistem Big Data Nasional

B. Spesifikasi Teknis Software

Dimana setiap bagian memiliki spesifikasi:

2 Data Variety Mampu menangani data terstruktur, tidak terstruktur

4 Analytics and • Memiliki kemampuan untuk search, analytics

5 Security • Menyediakan kemampuan perimeter security

6 Multi Tenancy • Mampu mengelola dan membagi beban kerja

7 Data Scientist tools • Memiliki UI berbasis browser

8 Intelligence • Sistem yang memiliki kemampuan untuk

- Software Sistem Manajemen Tuning Basis data:

• Mendukung kemampuan SQL Tuning,

Software Sistem Manajemen Diagnosa Basis data:

• Mendukung kemampuan Automatic

Sistem mendapatkan dukungan update versi dan

2 Natural Language • ● Sistem NLP Name Entity Recognizer yang

3 Natural Language • Sistem NLP word normalizer yang berjalan

4 Natural Language • Sistem NLP News Topic Classifier yang berjalan

8. Jenis Jasa Lainnya

1. Analitika Data: Konsep dan Tools

Gambar 2.1 Tahapan Data Science

Gambar 2.2 Teknologi dan Tools Analisis Data2

Big Data Analysis

Gambar 2.3 Karakteristik Big Data4

Konsep hirarki data–information–knowledege–wisdom (DIKW) atau sering disebut

Gambar 2.4 Hirarki Wisdom5

Gambar 2.5 Platform Pemrosesan Big Data6

Gambar 2.6 Hadoop Ecosystem7

Tabel 1 Hadoop Ecosystem Component Function

10 YARN A system to schedule applications and services on an HDFS cluster

Data Analytic Platform Tools

2. Arsitektur Sistem DA & DE KOMINFO

Gambar 2.8.a Arsitektur Global Sistem DA & DE KOMINFO

datanasional antar IPD.

Sistem DA & DE KOMINFO dalam menjalankan fungsinya memanfaatkan (berinteraksi

Gambar 2.8.b Arsitektur Detail Sistem DA & DE KOMINFO

1. KOMINFO DA & DE Controller, merupakan modul antar muka Sistem DA & DE

• KOMINFO DA & DE Controller, memiliki fungsionalitas integrasi dengan Platform

4. Kelas dan Karakteristik User

1. Kementrian KOMINFO, merupakan pengguna yang ditugaskan sebagai administrator

5.7 Sistem Penghubung Layanan Pemerintah (SPLP)

6. Design and Implementation Constraints

KOMINFO untukmenunjukkan fungsionalitas sistem secara lengkap.

10. Manual Pengguna (User Manual),

13. Coding Code Source untuk integrasi/ kastemisasi,

8. Asumsi dan Ketergantungan

9. Kebutuhan Antarmuka Eksternal

9.2 Antarmuka Perangkat Keras

9.3 Antarmuka Perangkat Lunak

9.4 Antarmuka Komunikasi

Tabel 2 Spesifikasi Fungsional Fitur Sistem

Kode Sistem/ Subsistem/ Fungsionalitas

FR2.1.11 Messaging Terdistribusi Menyediakan fungsionalitas distributed messaging sistem

FR2.1.12 Search Engine Menyediakan fungsionalitas search engine dengan fitur

S2.2 DA Platform Software Platform untuk analisis data

FR2.2.1 Identifikasi Masalah Menyediakan fungsionalitas untuk membuat proyek

FR2.3.1 Disain Warehouse Menyediakan fungsionalitas mendisain model data

FR2.3.2 ETL Menyediakan fungsionalitas Extract – Tranform – Load