Anda di halaman 1dari 1

- sumber data dan HDFS diluar kotak apache airflow, panah ngarah ke Dashboard

metabase

- csv nya 1 aja, program python nya kotak biasa, sumber data dan hdfs nya diluar
kotak apache airflow

- jadi apakah mungkin perintah atau proses pada file program nya di perjelas?

- Jadi misalnya membuka driver pakai selenium, ngambil data dari tag apa, atau pake
elemen apa, mencari elemen XPATH apa, itulah sekuensial, diujung nya hasil data
dapat disimpan.

- apa aja yg akan disimpan dalam csv nya, diperjelas dalam csv nya. Menyimpan
dataframe ke dalam bentuk csv, menggunakan function to_csv yang ada di dalam
pustaka Pandas.

jelasin juga proses menyimpan berkas csv yang dihasilkan proses sebelumnya tadi,
pake line apa dia buat dipindah ke dalam HDFS.

*NOTE: Gw lupa bikin API Retrieval buat initial load, coba bikin DAG baru biar
ngambil tanggal paling awal.

Misal luaran tag yang diambil itu disimpan dalam bentuk list.

*NOTE: coba ubah hak akses rapsberry pi nya biar bisa di copy ke local

di dashboard coba cari tau atau eksplor lagi apa yg bisa di cari tau, apakah dia
tetap stabil bila tetap dijalankan dalam waktu 1 jam untuk setiap 5 menit.

Berarti coba bikin avg time per timestamp, karena nanti kan ada eksperimen nya 5
menit 5 menit.

kita pakai konsep batch, meskipun hanya 1 data yang diambil.

- apa yg bisa dipantau untuk melihat stability


- elemen yang bisa ditambah, setiap task / setiap eksekusi dihitung dalam setiap
detik ? (di setiap timestamp durasi nay berapa ?)
kesimpulan simpangannya diambil, jka jauh berarti tidak stabil

Anda mungkin juga menyukai