Information
1. kumpulan data yang terstruktur yang kita komunikasikan melalui bahasa lisan,
surat kabar, video dan lain sebagainya
2. data yang telah diuubah menjadi sebuah bentuk yang berarti bagi penerimanya
dan bermanfaat dalam mengambil keputusan saat ini atau mendatang.
Knowlegde
1. sesuatu yang digunakan manusia untuk memahami dunia, yang dapat diubah-
ubah berdasarkan informasi yang diterima.
data adalah hasil observasi langsung terhadap suatu kejadian
informasi adalah kumpulan data yang terstruktur untuk memperlihatkan hubungan-
hubungan entitas di atas
Pengetahuan adalah model yang digunakan manusia untuk memahami dunia dan
yang dapat diubah-ubah oleh informasi yang diterima pikiran manusia.
Variety of Data (Keragaman Data)
1. Data dapat diperoleh dari berbagai sumber, seperti sensor cuaca, sensor mobil,
data sensus, pembaruan Facebook, tweet, transaksi, penjualan, dan pemasaran
2. Format data dapat berupa terstruktur dan juga tidak terstruktur. Tipe data juga
bisa berbeda, seperti tipe data biner, teks, JSON, dan XML.
Visualization(Visualisasi)
Visualisasi muncul dalam gambar ketika perlu menyajikan data dengan cara yang
dapat dibaca dan diakses setelah diproses.
Value (Nilai)
1. Big Data semakin besar dan meningkat setiap hari
2. datanya juga berantakan dan terus berubah
3. tersedia untuk semua dalam berbagai format
4. tidak dapat digunakan tanpa analisis dan visualisasi.
sebagian besar Big Data bersifat tidak terstruktur atau semi-terstruktur, yang
memerlukan teknik dan alat yang berbeda untuk memproses dan menganalisisnya
Data terstruktur
berisi tipe data, format, dan struktur yang didefinisikan seperti : data transaksi, OLAP,
RDBMS tradisional, file CSV, dan bahkan spreadsheet sederhana)
Data semiterstruktur
File data tekstual dengan pola dapat dilihat dan memungkinkan datanya dapat diurai
kembali seperti file data Extensible Markup Language (XML) yang mendeskripsikan
diri dan ditentukan oleh skema XML
Sejumlah besar informasi terus meningkat dan sangat penting bagi perusahaan
Contoh: data cuaca terformat yang berasal dari lima stasiun cuaca
mencakup ID stasiun, zona waktu, tanggal dalam format Universal Coordinated Time
(UTC), lintang, bujur, suhu, tekanan barometrik, kelembaban, suhu dalam ruangan,
dan curah hujan
Kelemahan
1. tidak pernah digunakan oleh staf operasi dan pemeliharaan karena pengolahan
data historian membutuhkan keterampilan dan perangkat lunak khusus yang
menjadikannya mahal dan sulit untuk dibobol
2. lisensi perangkat lunak
3. biaya yang besar untuk mendapatkan semua jumlah data yang dibutuhkan
4. teknologi data historian yang tidak berubah selama beberapa dekade terakhir
yang berarti sulit untuk mengintegrasikan data historian ke dalam aplikasi
berbasis web modern.
kumpulan data berupa file, arsip, atau tabel yang tersusun sedemikian rupa
menurut aturan tertentu, saling terhubung dan tersimpan dalam media elektronik
pengguna mudah dalam mengelolanya serta mudah dalam mendapatkan informasi
memberikan kecepatan dan kemudahan dalam menyeleksi data
mendapatkan informasi yang diperlukan dalam waktu yang singkat
bisa dipergunakan secara bersama-sama yang terpusat pada satu server
aplikasinya bisa dihubungkan ke beberapa komputer lainnya
memudahkan kinerja di perusahaan/instansi
penghematan biaya
Real-time Database
1. sistem pengolahan yang pemrosesannya menggunakan waktu nyata
2. dirancang untuk menangani beban kerja dimana kondisinya dapat berubah terus-
menerus
3. Contoh: pasar saham berubah dengan cepat dan dinamis
4. transaksi diproses cukup cepat bagi hasil untuk kembali dan bertindak segera
5. berguna untuk akuntansi, perbankan, hukum, catatan medis, multi-media, kontrol
proses, sistem reservasi, dan analisis data ilmiah
6. suatu transaksi diproses cukup cepat
7. hasilnya dapat segera ditindaklanjuti
8. berguna untuk akuntansi, perbankan, hukum, rekam medis, multimedia, control
proses, sistem reservasi dan analisis data ilmiah
9. Ketika merancang sistem real-time database, seseorang harus
mempertimbangkan bagaimana merepresentasikan waktu yang valid, bagaimana
fakta dikaitkan dengan sistem nyata.
gudang penyimpanan yang menyimpan sejumlah besar data mentah dalam format
aslinya, termasuk data terstruktur, semi-terstruktur, dan tidak terstruktur
Tujuan menggunakan setiap data yang dihasilkan oleh suatu organisasi untuk
memberikan wawasan yang berharga dengan rincian lebih dalam
dapat menyimpan data kompleks yang heterogen
mengkonsolidasikan semua set jenis data apapun yang terdapat pada suatu
organisasi guna dapat dianalisis dan diintegrasikan menjadi data baru
memberikan fleksibilitas, skalabilitas dan ketangkasan yang dibutuhkan oleh
perusahaan untuk mengelola volume, jenis, dan ketersediaan data waktu nyata yang
dihasilkan saat ini
data yang terdapat dalam data lake adalah data mentah yang belum diproses atau
dianalisis
Data lake dicirikan oleh tiga atribut utama
1. Kumpulkan semuanya(Collecting Everything) Danau data berisi semua data,
baik sumber mentah selama periode waktu yang lama maupun data yang
diproses.
2. Menyelam di mana saja(Dive in Anywhere) Danau data memungkinkan
pengguna di berbagai unit bisnis untuk menyaring, mengeksplorasi, dan
memperkaya data sesuai dengan persyaratan mereka.
3. Akses fleksibel(Flexible Access) Danau data memungkinkan beberapa pola
akses data melintasi infrastruktur bersama: batch, interaktif, online, pencarian,
dalam memori, dan mesin pemrosesan lainnya.
Data Ingestion and Storage
1. berguna untuk menerima data, baik secara real time atau dalam kelompok
2. Komponen ini juga memungkinkan pengguna untuk menyimpan dan mengakses
data.
Data Processing
kemampuan untuk bekerja dengan data mentah sehingga dapat dianalisis melalui
proses standar.
Data Analysis
merupakan modul-modul dengan fungsi memperoleh hasil analisis sistematis dari
suatu data
Data Integration
1. kemampuan untuk menghubungkan aplikasi dengan platform
2. pertama-tama data harus diekstraksi terlebih dulu dalam format sesuai
kebutuhan.
komponen-komponennya menyediakan berbagai fungsi yang membantu
perusahaan untuk mendapatkan lebih banyak konsumen
meningkatkan produktivitas, dan membuat keputusan
berkontribusi untuk meningkatkan pertumbuhan bisnis dengan pesat
Keuntungan tersebut dapat diperoleh melalui cara kerja berikut:
1. Mengindeks data jenis data dan database disimpan, termasuk diantaranya data
operasional, data dari aplikasi bisnis, atau data yang bersifat non-relasional
seperti data yang diperoleh dari aplikasi mobile dan media sosial
2. Machine learning Perusahaan dapat memperoleh gambaran operasional dan
marketing melalui data yang diperoleh dari data lake. Data-data ini
menggambarkan tren serta pola perilaku konsumen. Kemudian, perusahaan
dapat menerapkan machine learning untuk membuat model prediksi dan
perkiraan dari data-data tersebut.
3. Mengembangkan interaksi dengan konsumen menggabungkan data konsumen
dari platform CRM dengan hasil analisis media sosial. Penggabungan dapat
dilakukan dengan platform marketing yang menggambarkan riwayat pembelian
konsumen untuk mengidentifikasi mana konsumen yang paling menguntungkan,
apa yang melatarbelakangi pola perilaku konsumen, serta reward seperti apa
yang dapat meningkatkan kesetiaan konsumen
4. Analisis memungkinkan para Data Scientist, pengembang data untuk
mengakses data sesuai kerangka dan perangkat analisis yang mereka miliki. Hal
ini dapat dilakukan analisis tanpa perlu memindahkan data dari satu sistem ke
sistem yang lain.
Data Lake adalah fondasi utama yang dibutuhkan oleh alat analisis untuk proses
analisisnya
Data lake merupakan tempat penyimpanan utama dari Big Data yang dikumpulkan
Akurasi dalam pengambilang keputusan hanya bisa diperoleh ketika organisasi
memiliki fondasi yang kuat dengan data lake berkualitas tinggi
Aspek-aspek penting yang harus diperhatikan untuk mendapatkan data lake
berkualitas tinggi antara lain
1. Pengelolaan data dari berbagai sumber internal dan eksternal
2. Menemukan dan mengganti data lama dengan data yang baru
3. Membersihkan dan memperkaya data melalu deduplikasi dan standardisasi.