Sumber data yang digunakan dalam Big Data dapat dikategorikan menjadi tiga jenis,
yaitu:
- Data terstruktur
- Data semi terstruktur
- Data tidak terstruktur
Jelaskan bagaimana maksud dari masing-masing jenis sumber data tersebut DAN
berikan contoh dari masing-masing jenis data tersebut!
Jawab :
- Data terstruktur merupakan salah satu jenis big data yang datanya dapat diproses,
disimpan dan diambil kembali dalam format tetap. Data struktur mengacu pada
informasi yang sangat teroganisir serta dapat dengan mudah disimpan dan diakses
dari database dengan alogaritma mesin pencari sederhana. Contoh dari data
terstruktur yang dihasilkan mesin adalah statistik weblog dan data penjualan dan
data spreadsheet lainnya.
- Data tidak terstruktur merupakan jenis big data yang datanya tidak memiliki
bentuk atau struktur khusus apapun. Hal ini membuat sangat sulit dan memakan
waktu untuk memproses dan menganalisis data yang tidak terstruktur. Data tidak
terstruktur lebih bersifat kualitatif daripada kuantitatif, yang berarti lebih bersifat
karakteristik dan kategoris. Contoh dari data tidak terstruktur ada foto, file video
dan audio, file teks, konten media sosial, citra satelit, presentasi, PDF, tanggapan
survei terbuka, situs web, dan transkrip atau rekaman pusat panggilan.
- Data semi-terstruktur merupakan jenis big data yang datanya mengandung format
data terstruktur dan data tidak terstruktur. Lebih tepatnya jembatan antara data
terstruktur dan tidak terstruktur. Data ini tidak memiliki model data yang telah
ditentukan sebelumnya dan lebih kompleks daripada data terstruktur, namun lebih
mudah disimpan daripada data tidak terstruktur. Contoh dari data semi-terstruktur
ada Email, XML dan bahasa markup lainnya, paket TCP/IP, file zip dan integrasi
data dari berbagai sumber.
3. Case study : Sebuah perusahaan taksi bandara RedBird ingin membuat suatu sistem
pricing biaya transportasi kendaraan. Adapun biaya transportasi mengikuti traffic,
jenis mobil, daerah, dan jarak tempuh yang dilalui. Oleh karena itu, perusahaan
memanfaatkan Big Data yang diterima untuk dapat dianalisis lebih lanjut. Coba anda
rancang dan jelaskan kebutuhan Big Data Analytics yang berkaitan dengan kasus
tersebut menggunakan panduan dibawah ini.
- Data Collection : Databases
- Analysis Mode : Real time/ batch
- Analysis Stack : Machine Learning/ MapReduce/Stream Processing/ dll
- Analysis Type : Sentiment Analysis/Product Recommendations/ PCA/ Regression
/ Classification
Jelaskan penggunaan data collection, analysis mode, analysis stack, dan analysis type
yang anda pilih!