Anda di halaman 1dari 4

NAMA : MARIA JEANNE NATALIA PAKAENONI

NIM : 201064001
TUGAS 2 TEKNOLOGI INFORMASI DAN BIG DATA

a. Menuliskan materi tentang pengolahan bigdata di R


b. Contoh aplikasi dan syntaxnya
Jawab:
a. Big data adalah sekumpulan informasi dengan format yang berbeda-beda dan
berkembang seiring waktu. Pengertian lain dari Big data analytics atau analisis big data
adalah keseluruhan proses untuk mengumpulkan, merapikan, memperbaiki, hingga
menganalisis data dalam jumlah besar. Prinsip big data ada lima, yakni volume, velocity,
variety, veracity, dan value. Volume adalah skala informasi yang didapatkan, velocity
adalah kecepatan untuk mengumpulkan data-data tersebut, variety adalah keberagaman
jenis data yang diambil, veracity adalah tingkat akurasi & validitas data yang dimiliki,
dan yang terakhir value, nilai dari data yang dimiliki dan dihasilkan. Kemudian ada pula
penambahan tiga prinsip dalam big data yakni volatility, visualiation dan virality dimana
volatility adalah karakteristik yang berkaitan dengan perubahan data, visualiation
adalah tampilan berupa grafis atau visual dari informasi dan data sedangkan virality
adalah seberapa besar data itu dapat didistribusikan ulang kepada publik.
Bahasa R memiliki banyak base function maupun library yang membantu menangani
data yang tidak terstruktur seperti gambar, video maupun teks dalam jumlah yang besar
(big) agar bisa terdokumentasi dengan baik dengan teknologi penyimpanan data yang
terus meningkat, baik dari sisi kehandalan maupun kapasitas. Dimana poin penting
selanjutnya dari data yang telah terstruktur oleh bahasa R ialah dapat dianalisis untuk
menciptakan keputusan yang bisa berdampak baik pada organisasi maupun perusahaan.
1) Untuk Mengolah Data Text
Pengolahan big data diawali dengan mengecek tipe dari data yang akan dikelola,
salah satunya bisa berupa character ataupun string. Selanjutnya akan dilakukannya
proses wrangling, proses wrangling ini merupakan proses mengubah data mentah ke
dalam format yang lebih mudah diolah. Proses pengubahan tersebut mencakup
beberapa langkah diantaranya menggabungkan beberapa sumber data(merging),
mengidentifikasi atau mengatur ulang data, menangani missing value dengan
membersihkannya kemudian yang terakhir memperkaya atau
mengembangkan(memproses) data. Diikuti dengan mengekstrak data yang terdapat
pada teks dan mendeteksi pola atau pattern yang terdapat pada teks. Berikutnya ialah
membuat data teks dengan syntax data frame.
2) Untuk Sampel dan Pemodelan
Pengambilan sampel yang dilakukan telah mewakili keseluruhan data yang akan
dimodelkan, berkurangnya ukuran data saat pengunduhan tidak berpengaruh pada
runtime model data dan validitas statistik, model data tetap layak digunakan dan
validitas statistik pun tetap dipertahankan.
3) Potong dan Tarik
Data dipotong menjadi unit yang dapat dipisahkan dan setiap potongan ditarik secara
terpisah dan dioperasikan secara serial, paralel, atau setelah digabungkan kembali.
Strategi ini secara konseptual mirip dengan algoritma MapReduce.
Bergantung pada kebutuhan, potongan tersebut dapat berupa periode waktu, unit
geografis, atau logis seperti bisnis, departemen, produk, atau segmen pelanggan yang
terpisah
4) Dorong Hitung ke Data
Data dikompresi pada database, dan hanya kumpulan data terkompresi yang
dipindahkan dari database ke R.

b. Aplikasi R dan syntaxnya


1) Contoh aplikasi syntax suatu proyek pada R:

2) Contoh syntax pada R(data text):


3) RHadoop:

Anda mungkin juga menyukai