NIM : 201064001 TUGAS 2 TEKNOLOGI INFORMASI DAN BIG DATA
a. Menuliskan materi tentang pengolahan bigdata di R
b. Contoh aplikasi dan syntaxnya Jawab: a. Big data adalah sekumpulan informasi dengan format yang berbeda-beda dan berkembang seiring waktu. Pengertian lain dari Big data analytics atau analisis big data adalah keseluruhan proses untuk mengumpulkan, merapikan, memperbaiki, hingga menganalisis data dalam jumlah besar. Prinsip big data ada lima, yakni volume, velocity, variety, veracity, dan value. Volume adalah skala informasi yang didapatkan, velocity adalah kecepatan untuk mengumpulkan data-data tersebut, variety adalah keberagaman jenis data yang diambil, veracity adalah tingkat akurasi & validitas data yang dimiliki, dan yang terakhir value, nilai dari data yang dimiliki dan dihasilkan. Kemudian ada pula penambahan tiga prinsip dalam big data yakni volatility, visualiation dan virality dimana volatility adalah karakteristik yang berkaitan dengan perubahan data, visualiation adalah tampilan berupa grafis atau visual dari informasi dan data sedangkan virality adalah seberapa besar data itu dapat didistribusikan ulang kepada publik. Bahasa R memiliki banyak base function maupun library yang membantu menangani data yang tidak terstruktur seperti gambar, video maupun teks dalam jumlah yang besar (big) agar bisa terdokumentasi dengan baik dengan teknologi penyimpanan data yang terus meningkat, baik dari sisi kehandalan maupun kapasitas. Dimana poin penting selanjutnya dari data yang telah terstruktur oleh bahasa R ialah dapat dianalisis untuk menciptakan keputusan yang bisa berdampak baik pada organisasi maupun perusahaan. 1) Untuk Mengolah Data Text Pengolahan big data diawali dengan mengecek tipe dari data yang akan dikelola, salah satunya bisa berupa character ataupun string. Selanjutnya akan dilakukannya proses wrangling, proses wrangling ini merupakan proses mengubah data mentah ke dalam format yang lebih mudah diolah. Proses pengubahan tersebut mencakup beberapa langkah diantaranya menggabungkan beberapa sumber data(merging), mengidentifikasi atau mengatur ulang data, menangani missing value dengan membersihkannya kemudian yang terakhir memperkaya atau mengembangkan(memproses) data. Diikuti dengan mengekstrak data yang terdapat pada teks dan mendeteksi pola atau pattern yang terdapat pada teks. Berikutnya ialah membuat data teks dengan syntax data frame. 2) Untuk Sampel dan Pemodelan Pengambilan sampel yang dilakukan telah mewakili keseluruhan data yang akan dimodelkan, berkurangnya ukuran data saat pengunduhan tidak berpengaruh pada runtime model data dan validitas statistik, model data tetap layak digunakan dan validitas statistik pun tetap dipertahankan. 3) Potong dan Tarik Data dipotong menjadi unit yang dapat dipisahkan dan setiap potongan ditarik secara terpisah dan dioperasikan secara serial, paralel, atau setelah digabungkan kembali. Strategi ini secara konseptual mirip dengan algoritma MapReduce. Bergantung pada kebutuhan, potongan tersebut dapat berupa periode waktu, unit geografis, atau logis seperti bisnis, departemen, produk, atau segmen pelanggan yang terpisah 4) Dorong Hitung ke Data Data dikompresi pada database, dan hanya kumpulan data terkompresi yang dipindahkan dari database ke R.