KEPLANETAN
Realita Inayah
Prodi Sains Atmosfer dan Keplanetan, Jurusan
Sains Institut Teknologi Sumatera
Realita.119290046@student.itera.ac.id
ABSTRAK
Pada praktikum mengenai Format Data dalam SAP ini dilakukan dengan tujuan
untuk mengolah salah satu format data dalam SAP yaitu netcdf dan melakukan
ekstrasi data berupa timeseries, menyimpan data hasil olahan dalam bentuk csv
file dan melakukan plotting peta 2D dari hasil olahan data netcdf. Setelah
dilakukan praktikum diketahui bahwa netCDF merupakan salah satu format data
yang digunakan untuk menyimpan data curah hujan selain itu juga Library
netCDF4 dapat digunakan untuk membaca data dengan format netCDF dan juga
dapat mengubahnya menjadi file dengan format CSV. Dalam praktikum ini juga
dilakukan plotting peta 2D dari data curah hujan yang ada. Plotting peta yang
dihasilkan berasal dari file netCDF. Dari plotting peta tersebut juga diketahui
bahwa pada gradasi plotting peta yang dihasilkan memiliki warna merah yang
berarti tingkat curah hujan tinggi dan warna biru menunjukkan hasil sebaliknya.
ii
DAFTAR ISI
HALAMAN JUDUL.....................................................................................i
ABSTRAK....................................................................................................ii
DAFTAR ISI.................................................................................................iii
BAB I PENDAHULUAN…..............................................................................1
1.1 Latar Belakang..............................................................................................1
1.2 Tujuan Praktikum.........................................................................................1
1.3 Sistematika Penulisan...................................................................................2
BAB II TINJAUAN PUSTAKA........................................................................3
2.1 Komputasi Ilmiah.........................................................................................3
2.2 Data Analytics...............................................................................................3
2.3 Tantangan dalam peningkatan Skala.............................................................4
2.4 Tantangan Terkait Memori, Data, dan Perpindahan Data............................5
2.5 NetCDF..........................................................................................................7
2.6 Data NetCDF..................................................................................................8
2.7 NetCDF-4…....................................................................................................9
2.8 Deskripsi Data...............................................................................................11
2.9 HDF 5…........................................................................................................11
BAB III METODOLOGI....................................................................................13
3.1 Waktu dan Tempat.......................................................................................13
3.2 Alat dan Bahan.............................................................................................13
3.3 Diagram Alir..................................................................................................13
DAFTAR PUSTAKA...........................................................................................15
iii
BAB I
PENDAHULUAN
1.2 Tujuan
Tujuan dari praktikum Format Data dalam SAP ini adalah sebagai berikut :
1
1. Mahasiswa mampu mengolah salah satu format data dalam SAP yaitu netcdf dan
melakukan ekstraksi data berupa timeseries.
2. Mahasiswa mampu menyimpan data hasil olahan dalam bentuk csv file.
3. Mahasiswa mampu melakukan plotting peta 2D dari hasil olahan data netcdf.
2
BAB II
TINJAUAN PUSTAKA
2.1 Komputasi Ilmiah
3
dihasilkan oleh peralatan-peralatan ilmiah yang ada.Seperti halnya pada ranah
komputasi ilmiah, terjadi juga perkembangan yang pesat baik dari sisi perangkat keras
maupun lunak guna big-data analytics. Namun tidak seperti pada ranah komputasi
ilmiah, ranah big-data analytics pada umumnya berbasis pada komoditas jaringan
Ethernetdan penyimpanan lokal, dengan biaya dan kapasitas sebagai prioritas
utama.Guna kepentingan big-data analytics, pada tingkat middleware terdapat sistem
Apache Hadoop yang menyediakan model untuk data analytics. Hadoop memiliki
sistem fileterdistribusi guna mengelola file berukuran besar yang berjumlah sangat
banyak (HDFS). Sistem fileterdistribusi ini mengimplementasikan replikasi blok pada
penyimpanan-penyimpanan adalah cara tersendiri bagi sistem.
HDFS dan HBase, yang merupakan versi open source dari Google’s BigTable,
dapat menjadi big-data analogsuntuk Lustre guna komputasi ilmiah.Hadoop memiliki
perangkat yakni Pig yang menyediakan model pemrograman tingkat tinggi guna data
analytics. Sebagai ekosistem data analytics, Hadoop didukung oleh perangkat big-
data streaming(Storm dan Flume);dukungan data relasional (Sqoop);perangkat
penampil grafik;dan perangkat guna klasifikasi, rekomendasi, dan prediksi melalui
pembelajaran superviseddan unsupervised(Mahout). Pada umumnya ekosistem data
analyticsdelam pengembangannya berbasis teknologi Java dan web servicesseperti
Ruby on Rail.Mahout berada pada level aplikasi. Perangkat lain pada level aplikasi
yang biasa terdapat pada ekosistem data analyticsadalah bahasa pemrograman R. R
digunakan untuk komputasi statistik, analisis data, data mining, serta
mengembangkan piranti lunak guna kebutuhan statistik spesifik.[1]
5
pada piranti lunak-piranti lunak modern mengakibatkan rendahnya Instruction Per
Cycle (IPC) pada processor-processor modern. Pengembangan sistem yang lebih
seimbang menjadi salah satu tantangan utama penghematan daya pada perangkat
exascale.Pertumbuhan data baik pribadi, bisnis, pemerintahan dan ranah ilmiah
bahkan lebih cepat dibanding perkembangan komputasi performa tinggi. Saat ini
penyedia layanancloudkomersial membangun jaringan data center yang tersebar di
seluruh dunia, yang mana tiap data center dapat menghabiskan biaya hingga ratusan
juta dolar guna mendukung layanan-layanan mesin pencarian, jejaring sosial, dan
cloud.
Dengan demikian secara alamiah akan muncul sinergi teknis dan ekonomi
antara ilmu pengetahuan yang bersifat data-intensive dan komputasi performa tinggi
seiring kemajuan keduanya. Ilmu pengetahuan yang bersifat data-intensive
bergantung pada koleksi, analisis, dan pengelolaan data dengan volume sangat besar,
yang diperoleh dari simulasi ilmiah atau fasilitas eksperimen.Pengukuran
ketergantungan terhadap perpindahan data dan kebutuhan memori aplikasi yang telah
dilakukan pada lingkungan advance computing ditunjukkan pada gambar
4,dimanamenunjukkan pengukuran tiga macam perpindahan data utama sekaligus
properti pola akses memori untuk semua aplikasi . Spatial Localitymengukur utilitas
memori sebagai hasil proses penjadwalan, sedangkan Temporal Locality mengukur
reusability dari data yang telah digunakan. Aplikasi piranti lunak dalam hal
inidiklasifikasikan menjadi:
Physical applications, yakni aplikasi-aplikasi komputasionaldan analytics, simulasi,
dekomposisi spasial, pemodelan multidimensi, dan pengolahan floating point,dan
cenderung menggunakan datasetspesifik, dimanamenjadi core dari komputasi
performa tinggi.\
Informatics applications yang merepresentasikan kode-kode program yang
berubah/berkembang dengan cepat seperti misalnya aplikasi
enterprise/transaksional, yang cenderung tidak terstruktur, berorientasi integer,dan
digunakan untuk membangun hipotesis dari data setyang besar.
6
2.5 NetCDF
NetCDF merupakan format data yg umum dipakai buat asimilasi data. NetCDF
artinya adalah network common data format. Mengalisa data gambaran satelit
menggunakan memanipulasi hasil bacaan tiap pixelnya (looping proses buat seluruh
pixel dalam citranya) kurang lazim dilakukan. Untuk keperluan analisis misalnya itu
umumnya memakai NetCDF. NetCDF adalah suatu pustakan software &
selfdescribing, format data yg nir bergantung menggunakan mesin pendukung buatan,
akses & banyak sekali data ilmiah yg berorientasi array. masih ada hambatan saat
mengakses terhadap data cuaca yg terkompresi pada format NetCDF dalam data
berukuran yg sangat besar.[2]
Dalam studi tadi, serius dalam pengolahan data NetCDF. Dari hal tadi nantinya
akan mempermudah proses pembuktian data radar menggunakan data curah hujan
ataupun proses asimilasi data radar ke pada contoh prediksi cuaca numerik. Namun
struktur data radar yg tersimpan masih pada koordinat polar sebagai akibatnya sering
terjadi hambatan saat ingin mengelolah data lebih lanjut. Penyajian studi ini
menampilkan prosesnya pengelolahan data radar mulai berdasarkan ekstraksi data
radar sampai menyimpan & visualisasi data menggunakan struktur koordinasi
kartesian pada format NetCDF.
Dalam pengelolahan dan menampilkan multi format data radar cuaca secara
massif,menyimpan data radar dalam format NetCDF koordinat kartesian sehingga
memudahkan pada pengelolahan data radar lebih lanut serta dapat menginput untuk
asimilasi data. Dalam studi tersebut, memfokuskan pada pengelolahan data NetCDF.
Dari Hal tersebut nantinya akan mempermudah proses verifikasi data radar dengan
data curah hujan ataupun proses asimilasi data radar ke dalam model prediksi cuaca
numerik. Namun struktur data radar yang tersimpan masih dalam koordinat polar
sehingga sering terjadi kendala ketika ingin mengelolah data lebih lanjut. Penyajian
studi ini menampilkan prosesnya pengelolahan data radar mulai dari ekstraksi data
radar hingga menyimpan dan visualisasi data dengan struktur koordinasi kartesian
dalam format NetCDF.Setiap file pada NetCDF dapat berisi file yang tak terbatas dan
7
setiap variabel dapat disertai dengan data tambahan, seperti satuan ukuran atau teks
deskriptifmenyertakan metode untuk menambahkan data ke yang sudah adafile
netCDF dengan cara yang ditentukan, fungsionalitas yang tidak berbeda dengan
struktur rekaman (panjang tetap).Namun, pustaka netCDF juga memungkinkan
penyimpanan akses langsung dan pengambilan data denganvariabelname dan index
dan oleh karena itu hanya berguna untuk file-file yang tinggal disk ataupun memory
resident.
File NetCDF adalah wadah untuk Dimensi, Variabel, dan Atribut Global File
(kumpulan data) berisi berikut ini:
- Nama jalur
- Dimensi
- Variabel
8
menggunakan perangkat lunak standar yang gratis seperti GrADS, Ferret, NCL, R,
Python dan lainnya atau yang berbayar seperti MATLAB dan IDL.
Pada NetCDF file dapat ditransfer melalui jaringan, atau dapat diakses dari
jarak jauh menggunakan jaringan yang sesuai pada sistem. Penggunaan akses netCDF
pada software non-Unidata akan mengguntungkan pada daerah pemilihan utama.
Pustaka netCDF didistribusikan tanpa lisensi atau batasan penting lainnya, dan versi
saat ini dapat diperoleh melalui FTP anonim. Bahkan software tersebut telah berjalan
dengan baik dan diterima oleh berbagai institusi di luar komunitas sains atmosfer, dan
substansi sejumlah sistem analis data domain public dan komersial sekarang dapat
menerima file netCDF sebagai masukan. [3]
Komponen-komponen ini dapat digunakan bersama untuk menangkap makna
data dan relasi di antara bidang data dalam kumpulan data berorientasi larik. Pustaka
NetCDF memungkinkan akses simultan ke beberapa set data NetCDF yang
diidentifikasi oleh nomor ID set data, selain file biasa nama. Set data NetCDF berisi
tabel simbol untuk variabel yang berisi nama, tipe datanya, peringkat (jumlah
dimensi), dimensi, dan alamat disk mulai. Setiap elemen disimpan di disk alamatyang
merupakan fungsi linier dari indeks array (subskrip) yang diidentifikasi. Karenanya,
indeks ini tidak perlu disimpan secara terpisah (seperti dalam database relasional). Ini
memberikan yang cepat dan metode penyimpanan kompak. Keuntungan dari pustaka
NetCDF adalah tidak ada kebutuhan pengguna untuk menjaga representasi fisik dari
data multidimensi pada disk.
2.7 NetCDF 4
NetCDF 4 merupakan versi kelanjutan dari NetCDF itu sendiri. Dengan
netCDF-4 dan yang lebih baru, ada varian format ketiga berdasarkan HDF5. Varian
ini disebut sebagai format netCDF-4, mengacu pada file HDF5 yang dibuat melalui
antarmuka pustaka netCDF-4. Sekali lagi, pustaka secara otomatis mendeteksi varian
format mana yang digunakan untuk setiap file saat dibuka untuk membaca
ataumenulis, sehingga pengguna tidak perlu mengetahui varian format mana yang
digunakan. Namun, fitur baru dari model data netCDF-4 yang ditingkatkan, seperti
9
grup dan tipe gabungan, tidak dapat ditambahkan ke file netCDF-3. Jika Anda
membuka file netCDF-3 yang sudah ada dan mencoba menggunakan fitur apa pun
yang spesifik untuk netCDF-4, seperti membuat grup, kesalahan akan ditampilkandan
file tidak berubah, karena operasi tersebut tidak didukung untuk netCDF-3 file.
Model data netCDF-4 menambahkan dukungan untuk beberapa dimensi tak
terbatas, tipe primitif baru, tipe yang ditentukan pengguna (gabungan, panjang
variabel, enum, dan buram) dan grup.Dengan maksud, model data baru adalah subset
terbatas dari model data HDF5. Seperti dijelaskan dalam Caron (2006), pengembang
NetCDF, HDF5, dan OPeNDAP telah mulai membahas formalisasi Model Data
Umum perantara ini, menyediakan pemetaan yang berguna di antara tiga model data,
dan mengembangkan model data untuk mengurangi perbedaan dan menjadikan
OPeNDAP sebagai akses jarak jauh. protokoluntuk netCDF-4 dan netCDF-4 format
ketekunan untuk OPeNDAP. Kesepakatan tentang Model Data Umum seperti itu
dapat meningkatkan interoperabilitas untuk data dan aplikasi ilmiah, memungkinkan
penyedia data untuk menyusun data mereka dengan cara yang akan menyederhanakan
akses menggunakan salah satu dari HDF5, netCDF-4, atau OPeNDAP.
Untuk kenyamanan, kami telah memperkenalkan varian format keempat:
netCDF-4 classic. Ini mengacu pada file yang menggunakan format penyimpanan
HDF5, tetapi tidak ada fitur khusus untuk netCDF-4 seperti grup atau tipe gabungan.
File tersebut dapat diakses, dimanipulasi, dan divisualisasikan oleh aplikasi netCDF-
3 yang hanya dihubungkan kembali keperpustakaan netCDF-4. File-file ini adalah
sejenis hibrida yang dapat secara eksplisit dibuat dan dimanipulasi dengan antarmuka
dan aplikasi pustaka netCDF-3, tetapi itu adalah file HDF5 di bawahnya. Format ini
dipertahankan oleh antarmuka, karena setiap upaya untuk menambahkan fitur spesifik
netCDF-4 ke file tersebut akan mengakibatkan kesalahan. Seperti dijelaskan di bawah,
ada implikasi kinerja potensial hanya dengan menggunakan antarmuka netCDF-3
dengan format penyimpanan HDF5.Versi format akan selalu terdeteksi saatdibaca dan
disimpan oleh perpustakaan saat menulis, jadi tidak mungkin untuk membuka file dan
mengubahnya ke varian format yang berbeda hanya dengan menulis ke dalamnya.
Untuk mengubah format file akan membutuhkan penggunaan
10
utilitas yang menyalin file (misalnya utilitas NCO ncks). Versi mendatang dari
perangkat lunak netCDF akan terus mendukung pembacaan dan penulisan file
menggunakan format klasik (offset 32-bit), format offset 64-bit, dan kedua varian
format netCDF-4. Tidak perlu mengonversi arsip yang ada dari format netCDF-3 ke
netCDF-4.
2.8 Deskripsi data
Format data netCDF memiliki kelebihan dalam hal pendeskripsian data,
sehingga pengguna lain dapat mengetahui deskripsi data secara jelas. Tiga deskripsi
utama dalam format data netCDF adalah variabel, dimensi dan atribut global. Dalam
Python untuk melihat deskripsi data netCDF menggunakan beberapa perintah.
Perintah untuk deskripsi variabel adalah :
for v in
ncfile.variables:
print v
Deskripsi variabel memperlihatkan terdapat 3 variabel, masing-masing variabel
berbentuk array/larik.Variabel pixel_x dan pixel_y menyatakan lintang dan bujuryang
masih berupa nilai bulat, sehingga untuk mendapatkan nilai lintang danbujur
sebenarnya melalui konversi terhadap atribut lain yang akan di bahas pada deskripsi
atribut global. Pada varibel SingleLayerCRefQC hanya menampilkan nilai echo yang
di terima radar, sehingga masing-masing data radar netCDF dapat menunjukkan nilai
yang berbeda . Panjang larik semua varibel menujukkan nilai yang sama, artinya
varibel tersebut dapat disusun menjadi larik dengan dimensi 4 atau berbentuk
matriks.Perintah untuk mengetahui deskripsi dimensi adalah :
for dim in ncfile.dimensions.keys():
print dim, len(ncfile.dimensions[dim]).
2.9 HDF 5
Pada format data Herarki (HDF5) pustaka I/O menyimpan data dalam file
biner yang diatur sebagai performa tinggi akses, serta menggunakan format yang
mendeskripsikan dirinya tanpa menggunakan mesin. Model datatersebut pada objek
HDF5 memungkinkan penggunaan untuk fokus terhadapkonsep hubungan tingkat
tinggi antaraobjek data daripada membahas detail tata letak tertentu dari setiap byte
11
dalam file data. Pustaka HDF5 sendiri dirancang untuk beroperasi pada HPC besar
sistem, serta mengandalkan implementasi standar MPI untuk komunikasi dan operasi
sinkronisasi dan opsional juga untuk operasi I/O kolektif.Desain perpustakaan HDF5
menyertakan "lapisan file virtual" modular.
Untuk melakukan I/O kefile menggunakan driver perangkat lunak.HDF5 dapat
menggunakan MPI-Rutinitas IO untuk operasi I/O kolektif dan independen
(file“MPI- IO virtual file driver”), atau dapat menggunakan kombinasi
MPIkomunikasi dan operasi I/O file POSIX untuk melewati MPI-IO ketika pola I/O
aplikasi tidak digunakan dengan baikMPI-IO ("MPI-POSIX virtual file
driver").Perpustakaan Jaringan Common Data Form (netCDF) [3] jugamenawarkan
model data yang fleksibel dan kemandirian mesin serupa ke HDF5.Versi terbaru,
netCDF-4, telah diadopsiHDF5 sebagai lapisan perantara. Demikian
optimasikitayang dijelaskan dan diterapkan ke I/O yang sama.pola di netCDF-
4.Karena netCDF tidak memperkenalkan dukungan paralel sampainetCDF-4, pustaka
pNetCDF dirancang sebagai paralel antar muka ke format file netCDF asli dan dibuat
secara langsung di atas MPI-IO.pNetCDF tidak menghasilkan file yang
kompatibeldengan netCDF-4, meskipun aplikasi yang menggunakan pNetCDFAPI
dapat diadaptasi untuk menggunakan API netCDF-4 secara adildan secara lugas.
Data tumbuh dengan kecepatan yang besar dengan peningkatan ke petabyte
yang berbeda. Penjelasan yang sederhana dari fenomena data yang besar
adalahbahwa pada di suatu sisi mengenai jumlah besar data serta di sisi lain
merupakan kesulitan untuk menganalisis kumpulan data yang ada dan juga
yang besar ini. Pada model data HDF5 dan beberapa kapabilitas peningkatan
kinerjanya yang meminimalkan kerumitan yang terlibat dalam penenangan data besar.
Namun ia memiliki efek buruk tidak hanya pada integritas dan keakuratan kumpulan
data ini tetapi terdapat keseluruhan yang besar, serta operasi semacam itu untuk
eksekusi dan karena tidak cocok. Namun pada HDF5 terbukti menjadi solusi terbaik.
HDF5 sendiri merupakan model data, pustaka serta format file untuk menyimpan
mengelola data. [4]
12
BAB III
METODOLOGI PRAKTIKUM
3.3 Flowchart
Mulai
Library
NetCDF4
Install
13
Plot netcdf file menjadi
peta
menggunakan python
Selesai
14
BAB IV
4.1 Hasil
15
Gambar 4. 1 Script python untuk mengekstrak file ke .csv
16
Gambar 4. 3 Curah hujan 1 Januari 2018 Gambar 4. 8 Curah hujan 1 Januari 2019
Gambar 4. 5 Curah hujan 1 Maret 2018 Gambar 4. 10 Curah hujan 1 Maret 2019
Gambar 4. 6 Curah hujan 1 April 2018 Gambar 4. 11 Curah hujan 1 April 2019
Gambar 4. 7 Curah hujan 1 Mei 2018 Gambar 4. 12 Curah hujan 1 Mei 2019
17
Gambar 4. 13 Curah hujan 1 Januari 2020 Gambar 4. 18 Curah hujan 1 Januari 2021
19
5.1 Kesimpulan
1. Format data netCDF dalam Sains Atmosfer dan Keplanetan sangat penting
untuk dapat mengolah data fotometri, data astrometri, data spektroskopi,
data cuaca dan iklim, data kimia atmosfer, dsb.
2. Dari praktikum ini dapat diamati curah hujan di provinsi Sumatera Barat
pada bulan Januari-Mei berturut-turut pada tahun 2018-2021.
3. Dari plot yang dihasilkan, dapat diamati tinggi rendahnya curah hujan di
provinsi Sumatera Barat.
5.2 Saran
20
DAFTAR PUSTAKA
21