COMP6725036 - Big Data Technologies

FM-BINUS-AA-FPU-579/R3
BINUS University
BINUS ONLINE LEARNING Semester: Odd / Even *)

Period: 1/2 *)
 Graduate Program  Undergraduate Program
Academic Year:
 Final Exam  Others Exam:
2022/2023
Faculty / Dept. : Binus Online Learning/ Computer Science
Student ID : 2402014563
Course : COMP6725036 – Big Data Technologies
Day/ Date : Senin – Senin/07–14 November 2022
BULC : Bekasi, Bandung, Jakarta, Malang, Palembang, N a m e : Zasqia Putri Damayanti
Semarang
Class : MDFE;MGEE;MHEE;MEBE;EMEA
Time : 00.00 – 12.00 WIB
Signature :
Exam Feature : Open/ Close Books*)
Equipment : Exam Booklet / Calculator / Laptop 🞸)
🞸) Strikethrough the unnecessary items
Please insert this test paper into the exam booklet and submit both documents after the test!!!
The penalty for CHEATING is DROP OUT!!!
PETUNJUK UJIAN
i. Jawablah setiap pertanyaan yang berada pada bagian PERTANYAAN UJIAN dibawah ini
ii. Jawaban di ketik rapi pada halaman JAWABAN UJIAN dibawah ini
iii. Jawaban dikumpulkan paling lambat tanggal 14 November 2022 dalam bentuk file dan submit melalui portal ujian
iv. Format file Jawaban adalah : KodeMatakuliah-Nama Matakuliah-NIM.pdf
Contoh : COMP6725036– Big Data Technologies -2012345678.pdf
PERTANYAAN UJIAN
No. DAFTAR Bobot

PERTANYAAN
1. Apakah motivasi dalam perusahan bisnis untuk mengadopsi big data technology? 10
2. Jelaskan secara garis besar arisitektur bigdata 10
3. Jelaskan perbedaan antara multidestination pattern dan Real-time Streaming pattern 10
4. Sebutkan dan jelaskan perbedaan antara Hadoop cloud private dan Hadoop cloud public 10
5. Jelaskan Langkah Langkah dalam instalasi Hadoop 10
6 Study Case 50
Perusahaan dalam bidang streaming film yang di sebut streamify memiliki banyak
data selama 5 tahun dan tidak digunakan selama ini, karena perusahaan tersebut
belum mengenal dengan teknologi di sebut dengan big data, masalah yang dialami
oleh perusahaan tersebut adalah, sudah jarang user yang nonton di aplikasi
streamify, anda sebagai big data expert akan membuat big data analytic untuk
memanfaatkan data yangtelah terkumpul selama 5 tahun agar streamify di pakai lagi
oleh user
Langkah-langkah yang akan di lakukan oleh big data expert
1. Mencari refrensi tentang aplikasi streaming film dalam memanfaatkan Big
datatechnology
2. Jelaskan data yang dibutuhkan untuk membuat big data analytics
3. Apakah manfaatnya Ketika perusahaan bidang streaming film
tersebut menggunakan bigdata?
Page 1 of 1
JAWABAN UJIAN
1. Banyak perusahaan yang memiliki minat tinggi untuk mengadopsi big data. Salah satu hal yang
mendorong berbagai perusahaan bisnis untuk mengadopsi big data yaitu karena di dunia yang
dengan data bervolume besar, perusahaan harus menggunakan alat termutakhir dalam
pengolahannya. Dengan begitu, perusahaan yang tim dan tingkat literasi data tertinggi tentu akan
memenangkan pasar. Ditambah dengan teknologi yang semakin berkembang juga membuat
berbagai perusahaan baru muncul sehingga mendorong persaingan yang semakin dinamis, karena
perusahaan berusaha memenangkan hati pelanggan dan segmentasi pasar yang dahulu dapat
digeneralisir, kini mulai ditinggalkan. Big data dapat memberikan keunggukan bagi perusahaan
dengan akses untuk memahami preferensi pelanggan secara personal, serta hal-hal apa saja yang
bisa menyenangkan pelanggan. Big data memungkinkan hal ini dilakukan secara masif dan otomatis.
Data dapat membantu perusahaan untuk memahami lebih jauh mengenai pengguna, sehingga
beberapa perusahaan besar sangat serius dalam melakukan pengumpulan datanya. Hasil akhir dari
pengolahan big data sendiri adalah insight atau wawasan bagi perusahaan. Proses big data pun tidak
hanya terdiri dari memperoleh, mengeksplor, memproses, hingga menganalisis data, melainkan
harus berujung pada penemuan insight sebagai acuan dan saran untuk pengembangan bisnis
perusahaan sebelum diwujudkan menjadi tindakan. Insight tersebut sangat penting untuk diterapkan
oleh perusahaan ataupun organisasi. Perusahaan telah mengambil selangkah lebih maju dengan
menerapkan tiga insight tersebut, dan dapat memperkirakan kemungkinan yang dapat terjadi dan
menyiapkan perusahaan untuk menanganinya dengan sebaik mungkin.
2. Arsitektur Big data adalah struktur keseluruhan yang merepresentasikan dari logical dan physical
sistem dari big data. Arsitektur dari big data dirancang untuk menangani penyerapan, pemrosesan dan
analisis data yang terlalu besar atau kompleks untuk sistem basis data tradisional. Berikut adalah
ilustrasi Arsitektur Big Data dan masing-masing penjelasannya:
A. Data Source
Data source merupakan sumber data yang akan diolah dan dijadikan satu. Umumnya, berasal
dari data storage suatu aplikasi misal RDBMS, static file, atau realtime data source.
B. Data Storage
Data untuk operasi pemrosesan batch biasanya disimpan di media penyimpanan file
terdistribusi yang dapat menampung file besar dalam berbagai format. Penyimpanan semacam
ini sering disebut dengan data lake.
C. Batch Processing
Semua data dipisahkan ke dalam kategori yang berbeda menggunakan long-running jobs
untuk memfilter, mengaregasi dan juga menyiapkan data atau status pemrosesan data yang
akan dianalisis.
D. Real-time Message Ingestion
Semua sistem streaming real-time melayani data yang dihasilkan secara berurutan dan dalam
pola tetap. Biasanya sering digunakan untuk data toko yang bertanggung jawab atas semua
pesan masuk di dalam folder yang digunakan untuk pemrosesan data.
E. Stream Processing
Ada sedikit perbedaan antara real-time message ingestion dan stream processing. Yang
pertama mempertimbangkan penyerapan data mana yang akan di kumpulkan pertama dan
digunakan sebagai publikasi-berlangganan. Stream processing digunakan untuk menangani
semua data streaming kemudian menulis data output.
F. Analytical Data Store
Ini merupakan penyimpanan data yang digunakan untuk tujuan analitik oleh karenanya data
yang sudah diproses kemudian ditanyakan dan dianalisis dengan menggunakan alat analitik
yang sesuai.
G. Analysis and Reporting
Wawasan harus dihasilkan pada data yang diproses dan itu dilakukan secara efektif oleh alat
pelaporan dan analisis yang memanfaatkan teknologi dan solusi yang disematkan untuk
menghasilkan grafik, analisis dan wawasan yang bermanfaat.
H. Orchestration
Solusi berbasis big data terdiri operasi terkait data yang bersifat berulang dan juga dikemas
dalam workflows yang dapat mengubah sumber data dan juga memindahkan data dari
berbagai sumber ke unit analitik.
3. Multidestination pattern serupa dengan pola konsumsi multisumber hingga siap untuk berintegrasi
dengan beberapa tujuan. Router menerbitkan data "diperkaya" dan kemudian menyiarkannya ke
tujuan pelanggan. Tujuan harus mendaftar ke agen penerbitan di router. Enrichers dapat digunakan
sesuai kebutuhan oleh penerbit maupun pelanggan. Router dapat digunakan dalam sebuah cluster,
tergantung pada volume data dan jumlah tujuan berlangganan. Berikut adalah gambaran dari
Multidestination Pattern:
Multidestination pattern memecahkan beberapa masalah menelan dan menyimpan data dalam jumlah
Besar, yaitu:
A. Membagi biaya penyimpanan dengan membagi data yang disimpan di antara system
penyimpanan tradisional dan HDFS.
B. Menyediakan kemampuan untuk mempartisi data untuk akses dan pemrosesan yang fleksibel
dengan cara yang terdesentralisasi.
C. Karena replikasi pada node HDFS, tidak ada "penyesalan data."
D. Karena setiap node mandiri, mudah untuk menambahkan lebih banyak node dan penyimpanan
tanpa penundaan.
E. Komputasi terdesentralisasi pada node data tanpa ekstraksi data ke alat lain.
F. Memungkinkan penggunaan bahasa kueri sederhana seperti Hive dan Pig bersama raksasa
analitik tradisional
Sedangkan real time pattern memiliki gambaran sebagai berikut:
Karakteristik utama dari real time pattern yaitu:

A. harus mandiri dan menggunakan memori lokal di setiap node pemrosesan untuk
meminimalkan latensi.
B. Itu harus memiliki arsitektur shared-nothing—yaitu, semua node harus memiliki tanggung
jawab atomik dan tidak boleh bergantung satu sama lain.
C. Ini harus menyediakan API sederhana untuk menguraikan informasi waktu nyata dengan
cepat.
D. Atomicity dari masing-masing komponen harus sedemikian rupa sehingga sistem dapat
menskalakan seluruh cluster menggunakan perangkat keras komoditas.
E. Seharusnya tidak ada node master terpusat. Semua node harus dapat digunakan dengan skrip
yang seragam.
Terdapat banyak pilihan produk untuk memfasilitasi penyerapan streaming secara real-time. Berikut
adalah beberapa kerangka kerja utama yang tersedia di pasar:
A. Flume adalah sistem terdistribusi untuk mengumpulkan data log dari banyak sumber,
menggabungkannya, dan menulisnya ke HDFS. Ini didasarkan pada aliran data streaming.
Flume menyediakan ekstensibilitas untuk aplikasi analitik online.
B. Storm mendukung pemrosesan aliran peristiwa dan dapat merespons peristiwa individual
dalam kerangka waktu yang wajar. Storm adalah tujuan umum, sistem pemrosesan peristiwa
yang menggunakan sekelompok layanan untuk skalabilitas dan keandalan. Dalam terminologi
Storm, Anda membuat topologi yang terus berjalan di atas aliran data yang masuk. Sumber
data untuk topologi disebut spouts, dan setiap node pemrosesan disebut bolt.
C. InfoSphere Streams mampu melakukan analisis kompleks dari tipe data yang heterogen.
Infoosphere Streams dapat mendukung semua tipe data. Ini dapat melakukan analisis real-
time dan melihat ke depan dari data yang dihasilkan secara teratur, menggunakan
penyaringan digital, analisis pola/korelasi, dan dekomposisi serta analisis geospasial.
4. Berikut adalah perbedaan antara Hadoop cloud private dan Hadoop cloud public:
A. Private Cloud adalah kumpulan perangkat keras fisik tervirtualisasi yang telah menambahkan
layanan seperti katalog perangkat lunak atau platform tertentu yang dapat dikontrol oleh
pelanggan. Private cloud berbeda dari public cloud karena umumnya dimiliki dan atau dikelola
oleh perusahaan atau grup yang sama dengan pelanggan. Sebagai contoh, jika saya
bertanggung jawab atas kluster fisik 100-node, dan saya perlu membaginya antara Penjualan
dan Pemasaran yang ingin melakukan analitik tingkat lanjut dengan Hadoop dan Teknik yang
ingin melakukan pemodelan pabrik produksi baru, dengan masing-masing mendapatkan 50%
dari kapasitas, saya dapat memvirtualisasikan arsitektur fisik dan memungkinkan kumpulan
kapasitas untuk dibagikan di antara kelompok-kelompok yang bersaing, mungkin berdasarkan
kapasitas bersama atau basis swap-in/swap-out.
Manfaat dari Hadoop Cloud Private yaitu:

a) Sebuah cluster dapat diatur dalam hitungan menit.
b) Dapat secara fleksibel menggunakan berbagai perangkat keras (DAS, SAN, NAS).
c) Hemat biaya (biaya modal lebih rendah daripada penyebaran fisik dan biaya operasi
lebih rendah daripada penyebaran cloud publik).
d) Alat manajemen yang disederhanakan menurunkan kerumitan konfigurasi dan
pemeliharaan awal.
e) Ketersediaan tinggi dan toleransi kesalahan meningkatkan waktu kerja.
B. Public Cloud seperti Private Cloud tetapi dimiliki dan/atau dikelola oleh entitas luar, misalnya,
Amazon Web Services. Awan Publik dapat memberikan manfaat biaya, baik karena Anda
hanya membayar untuk penggunaan Anda atau orang lain membayar untuk penggunaannya,
tetapi kehilangan kendali atau percampuran data atau masalah lain yang tidak diinginkan.
Tidak dapat membuktikan penyimpanan konstan beberapa jenis data mungkin merupakan
kewajiban hukum untuk jenis data atau industri tertentu (PCI, HIPAA).
Keuntungan dari Hadoop Cloud Publik yaitu:

a) Jika Anda menggunakan solusi turnkey atau Hadoop-as-a-Service, hanya ada sedikit
pengaturan yang harus dilakukan.
b) Hadoop-as-a-Service tidak memerlukan perawatan.
c) Jika Anda kekurangan daya komputasi di tempat untuk menghosting klaster Hadoop
yang cukup besar untuk memenuhi kebutuhan Anda, menjalankan Hadoop di cloud
akan memberikan apa yang Anda inginkan tanpa memerlukan pembelian perangkat
keras baru.
d) Saat menggunakan Hadoop di cloud, Anda biasanya hanya membayar untuk waktu
yang Anda gunakan. Itu mengalahkan membayar untuk memelihara server Hadoop
lokal 24/7 jika Anda hanya menggunakannya beberapa waktu.
e) Jika data yang Anda analisis disimpan di cloud, menjalankan Hadoop di cloud yang
sama menghilangkan kebutuhan untuk melakukan transfer data besar melalui jaringan
saat menyerap data ke Hadoop.
5. Langkah-langkah dalam Instalasi Hadoop

Sebelum melakukan instalasi Hadoop, terlebih dahulu harus dilakukan instalasi maupun konfigurasi
beberapa prasyarat agar Hadoop dapat dijalankan.
A. Instalasi Java
Hadoop membutuhkan Java versi 1.6 (Java 6) atau lebih baru agar bisa dijalankan. Untuk
mengecek apakah Java telah dipasang atau belum, atau mengecek versi Java yang telah
dipasang, pada terminal masukkan perintah berikut.
Jika pemberitahuan seperti pada Gambar 3.1 muncul, berarti Java belum terpasang pada
komputer.Java yang yang dipasang adalah OpenJDK 1.7.0 (Java 7). Untuk melakukan
instalasi Java, pada terminal, dimasukkan perintah berikut.
Jika ada pertanyaan, tekan tombol “y” untuk melanjutkan pemasangan. Apabila pemasangan
selesai, makapada terminal akan muncul pesan bahwa pemasangan telah selesai seperti
diperlihatkan pada gambar di bawah.
B. Menambahkan Akun Pengguna Khusus Hadoop

Dalam menjalankan Hadoop, perlu digunakan akun pengguna khusus Hadoop. Sebagai
contoh, dibuatkan nama pengguna khusus Hadoop tersebut adalah hduser.
Perintah passwd adalah perintah untuk mengatur password dari akun pengguna. Untuk akun
hduser diberikan password yang sama dengan nama akun, yaitu hduser.
Kemudian, akun pengguna hduser tersebut dimasukkan ke dalam grup sudoers. Caranya
adalah dengan mengedit file sudoers dengan menggunakan text editor vi. Pada terminal,
dimasukkan perintah visudo. Kemudian akan muncul text editor vi yang membuka file
sudoers. Tambahkan sebaris konfigurasi berikut:
C. Instalasi dan Konfigurasi SSH

SSH digunakan untuk mengakses node-node Hadoop pada mode multinode maupun
single node pseudo distributed, atau sebagai remote access terhadap Hadoop. Apabila
SSH belum terpasang, pada terminal dimasukkan perintah berikut untuk memasang SSH.
Setelah SSH dipasang, kemudian perlu dilakukan generate sebuah kunci rsa khusus untuk
pengguna hduser. Tujuannya adalah agar akun hduser mempunyai otoritas untuk
melakukan remote access terhadap localhost (mode single node pseudo-distributed) maupun
pada node-node Hadoop (mode multinode). Masukkan terlebih dahulu masuk ke akun
hduser dan buat kunci ssh dengan menggunakan perintah berikut.
Pada prompt yang muncul, tekan enter agar nama file kunci tetap id_rsa. Kemudian, atur
pass phrase kosong, agar tidak perlu memasukkan password setiap melakukan SSH.
Tekan enter untuk membiarkan pass phrase tetap kosong. Kemudian masukkan kunci publik
untuk SSH ke daftar kunci yang terautorisasi menggunakan perintah berikut.
Perintah berikut digunakan untuk memberikan hak akses ke direktori .ssh dan file kunci
yang terautorisasi.
D. Mematikan IPv6
Konfigurasi Hadoop yang berhubungan dengan jaringan akan mengikat ke alamat IPv6 pada
0.0.0.0. Hal tersebut akan menimbulkan permasalahan tersendiri. Oleh karena itu, IPv6
sebaiknya dinonaktifkan.
Buka dan edit file sysctl.conf yang ada di direktori /etcdengan menggunakan text editor.
Setelah file sysctl.conf dibuka menggunakan text editor, tambahkan beberapa baris
konfigurasi berikut. Kemudian simpan dan tutup text editor.
Berikut adalah tambahan baris konfigurasi di /etc/sysctl.conf.
E. Mengunduh dan Membuat Direktori Hadoop

Hadoop didistribusikan dalam dalam dua bentuk, yaitu dalam bentuk source dan dalam
bentuk binary .Distribusi yang berupa source setelah diunduh harus dikompilasi terlebih
dahulu. Distribusi binary setelah diunduh dapat langsung digunakan, dengan beberapa
tambahan konfigurasi. Untuk mengunduh Hadoop binary distribution, sebagai hduser, pada
terminal masukkan perintah berikut.
Hadoop yang telah diunduh dalam bentuk tarball diekstrak ke direktori

/home/hduser/hadoop.
F. Memperbarui Environment Variable (.bashrc)

Pada file .bashrc, ditambahkan beberapa baris untuk menambahkan path ke direktori
Hadoop dan Java. Penambahan path ini digunakan untuk memudahkan ketika kita
melakukan perintah terkait Hadoop danJava di terminal. Buka file .bashrc menggunakan
perintah berikut.
Pada file .bashrc yang dibuka dengan, tambahkan di environment variable untuk path ke
direktori Hadoop dan direktori Java. Berikut adalah baris yang ditambahkan dalam .bashrc
Berikut adalah hasil penambahan baris di .bashrc
G. Konfigurasi Hadoop
Sebelum Hadoop dapat dijalankan, terlebih dahulu harus dilakukan beberapa
konfigurasiuntukmenyesuaikan HDFS dan MapReduce framework yang digunakan.
Semua konfigurasi Hadoop terletak didirektori /home/hduser/hadoop/etc/hadoop. Pada file
hadoop-env tersebut, set variabel JAVA_HOME menjadi lokasi instalasi Java sebagai
berikut.
Buka core-site.xml dengan text editor dan isikan pada tag

<configuration>...</configuration> dengan konfigurasi berikut. Hasil penambahan konfigurasi
diperlihatkan pada Gambar di bawah.
Selanjutnya, buka hdfs-site.xml dengan text editor dan isikan tag <configuration>
</configuration> dengan konfigurasi berikut. Konfigurasi ini digunakan untuk mendefinisikan
banyaknya replikasi data padaHDFS.
Selanjutnya adalah konfigurasi MapReduce framework yang digunakan pada file mapred-
site.xml. File tersebut belum ada, sehingga harus mengganti nama file mapred-
site.xml.template menjadi mapredsite.xml dengan perintah sebagai berikut.
Kemudian buka file mapred-site.xml tersebut dan dan tambahkan konfigurasi MapReduce
framework yang digunakan menggunakan perintah berikut. MapReduce framework yang
digunakan adalah YARN.
Gambar di atas menunjukkan hasil konfigurasi mapred-site.xml. Konfigurasi selanjutnya

adalah konfigurasi YARN. Langkahnya adalah dengan membuka yarn-site.xmldan isikan
konfigurasi dalam tag<configuration>...</confiiguration> seperti berikut. Hasil konfigurasi ini
diperlihatkan pada gambar di bawah ini.
H. Format Hadoop Distributed File System via NameNode

Setelah Hadoop selesai dikonfigurasi, kemudian dilakukan format pada Hadoop
Distributed File System (HDFS). Hadoop Distributed File System (HDFS )tersebut perlu di-
format sebelum Hadoop dijalankan untuk pertama kalinya. Format dilakukan melalui
NameNode. Untuk mengakses Name Node, harus dilakukan remote access kelocalhost
dengan SSH menggunakan perintah berikut ini. Perintah pada baris ketiga merupakan
perintah untuk format Name Node yang dilakukan dengan mengeksekusi file hdfs pada
direktori bin.
I. Menjalankan dan Menghentikan Hadoop

Mode menjalankan Hadoop dengan menggunakan HDFS dan faktor replikasi satu biasa
disebut sebagai mode pseudo-distributed. Perintah yang digunakan untuk menjalankan
Hadoop adalah- start-dfs.sh dan start-yarn.sh. Perintah start-dfs.sh akan mengaktifkan Name
Node, DataNode, dan SecondaryNameNode, sedangkan start-yarn.shakan mengaktifkan
Resource Manager dan Node Manager. Kita bisa menggunakan perintah jps untuk
mendapatkan informasi mengenai proses-proses Hadoop yang berjalan.
6. Study Case
Salah satu perusahaan di industry Live Streaming yang saya jadikan referensi adalah Netflix. Netflix
dapat dikatakan termasuk deretan perusahaan yang paling awal mengadopsi teknologi Big Data /
Hadoop. Netflix bahkan mendonasikan beberapa software Big Data mereka seperti Astyanax, Priam
dan Genie.
Netflix memanfaatkan Big Data untuk membuat rekomendasi film-film bagi pelanggan mereka di
seluruh dunia. Netflix menyimpan ber Peta — Peta Bytes data di dalam sistem Hadoop mereka. Perhari
rata-rata 10 Terabytes data dimasukkan ke dalam Sistem Hadoop mereka. Netflix menjalankan Hadoop
mereka dengan cloud Computing menggunakan Amazon Elastic Cloud Computing (EC2). Uniknya dari
sistem Netflix disini, dia tidak menggunakan HDFS sebagai media penyimpanan data mereka seperti
sistem Hadoop lainnya. Mereka menggunakan Amazon Simple Storage Service (S3). Alasan dari
Hadoop Engineer Netflix adalah karena S3 lebih terintegrasi dan lebih mudah digunakan di Amazon
Cloud Computing.
Dengan lebih dari 148 juta pelanggan streaming di seluruh dunia, 80% konten Netflix yang diputar
dipengaruhi oleh sistem rekomendasinya. Konten film yang ditayangkan diurutkan berdasarkan analisis
apakah pengguna akan terus menonton atau menonton ulang, atau apakah pengguna akan berhenti
menonton karena menganggap konten tersebut kurang menarik. Algoritme affinity akan
merekomendasikan konten film yang mirip dengan konten yang baru saja ditonton pengguna. Netflix
spill fakta, bahwa audience cenderung ingin mengonsumsi konten yang serupa dengan yang baru saja
mereka konsumsi. Dengan banyaknya data tentang bagaimana audiens berinteraksi dengan konten
film, #Netflix dapat dengan mudah menentukan jenis konten apa yang diinginkan orang.
Metriks data yang digunakan untuk membuat big data analysis perusahaan Live Streaming yaitu:
A. Tanggal streaming
B. Device untuk streaming
C. Variasi film setiap user
D. Pencarian
E. Konten yang ditonton ulang
F. Apakah konten dijeda saat ditonton
G. Lokasi pengguna
H. Waktu dalam sehari dan minggu untuk streaming konten
I. Metadata dari pihak ketiga seperti Nielsen
Pemanfaatan “Big Data” yang dilakukan oleh platform Live Streaming membuat begitu diminati oleh
para pengguna. Pemanfaatan dari teknologi tersebut dapat dilihat dari sistem rekomendasi yang di
gunakan Netflix. Pada umumnya jenis sistem rekomendasi yang digunakan oleh beberapa platform
streaming, yaitu:
A. Content - based system
Sistem membuat rekomendasi berdasarkan movie atau series yang ditonton oleh pengguna
aplikasi.
B. Collaborative - filtering system
Sistem membuat rekomendasi berdasarkan profil user yang mirip. Dapat diartikan jika sebuah
profil A dan B memiliki kemiripan content maka dapat dipastikan content rekomendasi yang
didapat akan sama.
Kemampuan Netflix untuk mengumpulkan dan menggunakan data menjadi sebuah kunci untuk dapat
lebih mendapatkan konsumen.
Sehingga dapat disimpulkan bahwa kebutuhan menjadi sebuah hal penting bagi sebuah perusahaan
Live Streaming untuk mendapatkan pengguna baru. Dengan memanfaatkan sebuah “Big Data” yang
memiliki beragam data membuat perusahaan menciptakan sebuah algoritma pada sistem rekomendasi
pada platform. Sebuah sistem rekomendasi yang digunakan oleh aplikasi streaming video menjadi
optimal karena menggunakan “Big Data”. Untuk mengoptimalkan sebuah “Big Data” pada sistem
rekomendasi pada platform streaming, yaitu dengan melakukan pengumpulan dan pengelolaan data
yang tersedia dari interaksi pengguna dengan platform, hingga content metadata. Lebih banyak data
yang didapatkan untuk kebutuhan akan memungkinkan mendapatkan hasil yang lebih baik.
Referensi
Kurnia, Lia. 2017. Instalasi Hadoop. Diakses dari https://docplayer.info/53769680-Modul-1-instalasi-
hadoop.html pada 12 November 2022.
Lecture Notes Big Data Technology
Rahman, Balqis Alyamayadita. 2021. Ini Manfaat Big Data Bagi Perusahaan. Diakses dari
https://www.cloudcomputing.id/pengetahuan-dasar/ini-manfaat-big-data-bagi-perusahaan pada 11
November 2022.
Sapta Tuntas. 2021. Bagaimana Konsep dan Arsitektur Dari Big Data?. Diakses dari
https://www.saptatunas.com/bagaimana-konsep-dan-arsitektur-dari-big-
data/#:~:text=Arsitektur%20dari%20big%20data%20dirancang,untuk%20sistem%20basis%20data%20tradi
sional.&text=Semua%20solusi%20big%20data%20dimulai,data%20aplikasi%2C%20seperti%20database%
20relasional pada 11 November 2022.

COMP6725036 - Big Data Technologies

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

COMP6725036 - Big Data Technologies

Diunggah oleh

Hak Cipta:

Format Tersedia

FM-BINUS-AA-FPU-579/R3

BINUS ONLINE LEARNING Semester: Odd / Even *)

No. DAFTAR Bobot

2. Jelaskan secara garis besar arisitektur bigdata 10

3. Jelaskan perbedaan antara multidestination pattern dan Real-time Streaming pattern 10

Sedangkan real time pattern memiliki gambaran sebagai berikut:

Karakteristik utama dari real time pattern yaitu:

Manfaat dari Hadoop Cloud Private yaitu:

Keuntungan dari Hadoop Cloud Publik yaitu:

5. Langkah-langkah dalam Instalasi Hadoop

B. Menambahkan Akun Pengguna Khusus Hadoop

C. Instalasi dan Konfigurasi SSH

untuk SSH ke daftar kunci yang terautorisasi menggunakan perintah berikut.

Berikut adalah tambahan baris konfigurasi di /etc/sysctl.conf.

E. Mengunduh dan Membuat Direktori Hadoop

Hadoop yang telah diunduh dalam bentuk tarball diekstrak ke direktori

F. Memperbarui Environment Variable (.bashrc)

Berikut adalah hasil penambahan baris di .bashrc

Buka core-site.xml dengan text editor dan isikan pada tag

Gambar di atas menunjukkan hasil konfigurasi mapred-site.xml. Konfigurasi selanjutnya

H. Format Hadoop Distributed File System via NameNode

I. Menjalankan dan Menghentikan Hadoop

Lecture Notes Big Data Technology

Anda mungkin juga menyukai