Yuna Kristanto T1 Big Data

NAMA : YUNA KRISTANTO
NIM : 2019120023
Kelas : Karyawan 2019
MK : BIG DATA
#Tugas 1
A. Modul 1 – Apa itu Big Data?

Bernard Marr mendefinisikan Big Data sebagai jejak digital yang kita hasilkan
di era digital ini, dimana jejak digital ini terdiri dari semua data yang ditangkap
ketika kita menggunakan teknologi digital. Ide dasar di balik ungkapan Big Data
adalah bahwa semua yang kita lakukan semakin meninggalkan jejak digital
yang bisa kita gunakan dan menganalisis untuk menjadi lebih pintar.
Sedangkan menurut Gartner, mendefinisikan Big Data sebagai volume tinggi,
kecepatan tinggi, dan/atau keragaman tinggi aset informasi yang menuntut
hemat biaya, bentuk pemrosesan informasi yang inovatif yang memungkinkan
peningkatan wawasan, pengambilan keputusan dan otomatisasi proses. Dan
menurut Lisa Arthur, kontributor Forbes, ia mendefinisikan Big Data sebagai
kumpulan data dari tradisionaldan sumber digital di dalam dan di luar
perusahaan yang mewakili sumber penemuan dan analisis yang berkelanjutan.
V dari Big Data. Velocity adalah kecepatan data, atau kecepatan pengumpulan
data. Volume adalah skala data, atau peningkatan jumlah data yang
disimpan.Varietas adalah keragaman data. Kami memiliki data terstruktur yang
cocok dengan rapi ke dalam baris dan kolom, atau database relasional dan
data tidak terstruktur yang tidak terorganisir dengan cara yang telah ditentukan
sebelumnya, misalnya Tweet, posting blog, gambar, angka, dan bahkan data
video. Veracity adalah kesesuaian dengan fakta dan akurasi. Dengan
banyaknya data yang tersedia, perdebatan mengamuk tentang keakuratan
data di era digital. Apakah informasi itu nyata, atau salah? Mari kita
membongkar V lebih jauh. Kecepatan adalah gagasan bahwa data sedang
dihasilkan sangat cepat, sebuah proses yang tidak pernah berhenti. Atribut
termasuk streaming dekat atau real-time dan teknologi lokal dan berbasis cloud
yang dapat memproses informasi dengan sangat cepat. Volume adalah jumlah
data yang dihasilkan. Misalnya exabyte, zettabyte, yottabyte, dll. Penggerak
volume adalah peningkatan sumber data, sensor resolusi lebih tinggi dan
infrastruktur terukur. Veracity adalah kualitas dan asal data. Atribut meliputi
konsistensi, kelengkapan, integritas, dan ambiguitas. Mesin rekomendasi
adalah aplikasi umum dari data besar. Perusahaan seperti Amazon, Netflix,
dan Spotify gunakan algoritma berdasarkan data besaruntuk membuat
rekomendasi khusus berdasarkan preferensi pelanggan dan perilaku historis.
Asisten pribadi seperti Siri di perangkat Apple gunakan data besar untuk
menyusun jawaban untuk jumlah tak terbatas pertanyaan pengguna akhir
mungkin bertanya. Google sekarang membuat rekomendasi berdasarkan data
besar di perangkat pengguna. bagaimana konsumen menggunakan data
besar, mari kita lihat seberapa besar data memengaruhi bisnis. Pada tahun
2011, McKinsey & Company mengatakan bahwa data besar akan menjadi
dasar utama kompetisi mendukung gelombang baru pertumbuhan produktivitas
dan inovasi. Pada tahun 2013, UPS mengumumkan bahwa mereka
menggunakan data dari pelanggan, pengemudi dan kendaraandalam sistem
panduan rute baru bertujuan untuk menghemat waktu, uang dan bahan bakar.
Inisiatif seperti ini mendukung pernyataan tersebut bahwa data besar akan
berubah secara fundamental cara bisnis bersaing dan beroperasi. Contohnya
Netflix memiliki banyak data. Netflix mengetahui waktu saat film ditonton. Ini
mencatat ketika pengguna menjeda, memundurkan, dan maju cepat. Ini
memiliki peringkat dari jutaan pengguna serta informasi tentang pencarian yang
mereka lakukan. Dengan melihat semua data besar ini, Netflix mengenal
banyak penggunanya telah mengalirkan karya David Fincher dan film yang
menampilkan Kevin Spacey selalu berhasil. Dan ia tahu bahwa House of Cards
versi Inggris juga telah dilakukan dengan baik. Itu juga tahu bahwa orang-orang
yang menyukai Fincher juga menyukai Spacey. Semua informasi ini disarankan
bahwa membeli seri akan menjadi taruhan yang baik bagi perusahaan, dan
sebenarnya itu. Dengan kata lain, berkat data besar, Netflix tahu apa yang
diinginkan orang sebelum mereka melakukannya.
B. Modul 2 - Big Data – Melampaui Hype

Lebih banyak data telah dibuat dalam dua tahun terakhir daripada
sepanjang sejarah umat manusia. Pada tahun 2020, sekitar 1,7 megabita
informasi baru akan dibuat setiap detik untuk setiap manusia di dunia. Pada
tahun 2020, data yang kami buat dan salin akan mencapai sekitar 35
zettabytes, naik dari hanya 7,9 zettabyte hari ini. Grafik di sebelah kanan
menunjukkan pertumbuhan dalam data global dalam zettabytes. Perhatikan
lonjakan dari 2015 ke 2020 sebesar 343%. Seberapa besar zettabyte? Satu bit
adalah biner. Itu salah satu atau nol. Delapan bit membentuk satu byte, dan
1024 byte membuat satu kilobyte. 1024 kilobyte membuat satu megabyte.
Video dan DVD berukuran besar akan berukuran gigabyte di mana 1024
megabyte membuat satu gigabyte ruang penyimpanan. Saat ini kami memiliki
USB atau memory stick yang dapat menyimpan beberapa lusin gigabyte
informasi tempat komputer dan hard drive sekarang disimpan terabyte
informasi. Satu terabyte adalah 1025 gigabyte. 1024 terabyte membuat satu
petabyte, dan 1024 petabyte merupakan exabyte. Pikirkan kota urban besar
atau bandara internasional yang sibuk seperti Heathrow, JFK, O'Hare, Dubai,
atau O. R. Tambo di Johannesburg.
Dan sekarang kita berbicara tentang petabyte dan exabyte. Semua
pesawat itu menangkap dan mengirimkan data. Semua orang di bandara
tersebut memiliki perangkat seluler. Juga pertimbangkan kamera keamanan
dan semua staf di dalam dan di sekitar bandara. Sebuah studi alam semesta
digital yang dilakukan oleh IDC informasi digital yang diklaim tercapai 0,8
zettabytes tahun lalu dan memperkirakan angka ini akan tumbuh menjadi 35
zettabyte pada tahun 2020. Diperkirakan pada tahun 2020, sepersepuluh dari
data dunia akan diproduksi oleh mesin, dan sebagian besar data dunia akan
diproduksi di pasar negara berkembang. Diperkirakan juga jumlah data yang
dihasilkan akan semakin melampaui penyimpanan yang tersedia. Kemajuan
dalam komputasi awan telah berkontribusi dengan meningkatnya potensi Big
Data.
Menurut McKinsey pada 2013, kemunculan komputasi awan telah
sangat berkontribusi hingga peluncuran era Big Data. Komputasi awan
memungkinkan pengguna untuk mengakses sumber daya komputasi dan
penyimpanan yang sangat skalabel melalui internet. Dengan menggunakan
komputasi awan, perusahaan dapat menggunakan kapasitas server sesuai
kebutuhan dan kembangkan dengan cepat untuk skala besar yang diperlukan
untuk memproses kumpulan data besar dan menjalankan model matematika
yang rumit. Komputasi awan menurunkan harga untuk menganalisis data besar
karena sumber daya dibagikan ke banyak pengguna, yang hanya membayar
untuk kapasitas yang sebenarnya mereka gunakan. Sebuah survei oleh IBM
dan SAID Business School mengidentifikasi tiga sumber utama Big Data. Data
yang dihasilkan orang, data yang dihasilkan mesin, dan data yang dihasilkan
bisnis, yang merupakan data yang dihasilkan organisasi dalam operasi mereka
sendiri. Bagan di sebelah kanan menunjukkan tanggapan yang berbeda di
mana responden diizinkan untuk memilih beberapa jawaban. Big Data akan
membutuhkan analis untuk memiliki keterampilan Big Data. Keterampilan Big
Data termasuk menemukan dan menganalisis tren yang terjadi di Big Data. Big
Data hadir dalam tiga bentuk. Terstruktur, tidak terstruktur, dan semi terstruktur.
Data terstruktur adalah data yang terorganisir, diberi label, dan memiliki model
ketat yang diikutinya. Data tidak terstruktur dikatakan membuat sekitar 80%
data di dunia, di mana data biasanya dalam bentuk teks dan tidak memiliki
model yang telah ditentukan sebelumnya atau diatur dengan cara apapun. Dan
data semi terstruktur merupakan gabungan dari keduanya. Hal ini mirip dengan
data terstruktur, di mana ia mungkin memiliki struktur yang terorganisir, tetapi
tidak memiliki model yang didefinisikan secara ketat. Beberapa sumber Big
Data terstruktur adalah database relasional dan spreadsheet. Dengan jenis
struktur ini, kita tahu bagaimana dataterkait dengan data lain, apa arti data, dan
datanya mudah untuk ditanyakan, menggunakan bahasa pemrograman seperti
SQL. Beberapa sumber Big Data semi-terstruktur adalah file XML dan JSON.
Sumber-sumber ini menggunakan tag atau penanda lainnya untuk
menegakkan hierarki catatan dan bidang dalam data. Proyek teleskop multi-
radio besar disebut Square Kilometer Array, atau SKA, menghasilkan sekitar
1000 petabyte, pada tahun 2011 setidaknya, data mentah per hari.
Diproyeksikan akan menghasilkan sekitar 20.000 petabyte atau 20 miliar
gigabyte data setiap hari pada tahun 2020. Saat ini, ada ledakan data berasal
dari aktivitas internet dan khususnya, produksi dan konsumsi video serta
aktivitas media sosial. Angka-angka ini akan terus bertambah karena
kecepatan internet meningkat dan semakin banyak orang di seluruh dunia
memiliki akses ke internet. Data terstruktur mengacu pada data apa pun yang
berada di bidang tetap dalam catatan atau file. Ini memiliki keuntungan karena
mudah dimasuki, disimpan, ditanyakan, dan dianalisis. Dalam pengaturan
bisnis saat ini, sebagian besar Big Data dihasilkan oleh organisasi terstruktur
dan disimpan di gudang data.
C. Modul 3 - Data Besar dan Ilmu Data

Ketika kita melihat data besar, maka mulai dengan beberapa topik luas:
integrasi, analisis, visualisasi, optimalisasi, keamanan, dan tata kelola. Mari kita
mulai dengan definisi singkat tentang integrasi. Mengintegrasikan berarti
menyatukan atau menjadi keseluruhan. Dalam data besar, akan ideal untuk
memiliki satu platform untuk mengelola semua data, bukan silo individu,
masingmasing menciptakan silo wawasan yang terpisah. Data besar harus
lebih besar dari hanya satu teknologi atau satu solusi perusahaan yang
dibangun untuk satu tujuan. Misalnya, bank harus memikirkan bagaimana
mengintegrasikan perbankan ritelnya, perbankan komersialnya, dan
perbankan investasi. Salah satu cara untuk menjadi lebih besar dari satu
teknologi adalah dengan menggunakan Hadoop ketika berhadapan dengan
data besar. Sistem file terdistribusi Hadoop, atau HDFS, menyimpan data untuk
banyak lokasi berbeda, menciptakan tempat terpusat untuk menyimpan dan
memproses data.
Banyak perusahaan besar menggunakan Hadoop dalam teknologi
mereka. Analisis. Mari kita lihat contoh Walmart. Walmart menggunakan mesin
pencari yang disebut Polaris, yang membantu pembeli mencari produk yang
ingin mereka beli. Ini memperhitungkan bagaimana perilaku pengguna di situs
web untuk menampilkan hasil terbaik bagi mereka. Polaris akan memunculkan
item yang didasarkan pada pengguna minat dan, karena banyak konsumen
mengunjungi Walmart's situs web, sejumlah besar data dikumpulkan, membuat
analisis pada data besar itu sangat penting. Visualisasi. Beberapa orang
bekerja dengan baik dengan tabel data, namun, sebagian besar orang
membutuhkan data besar untuk disajikan kepada mereka dengan cara grafis
sehingga mereka dapat memahaminya. Visualisasi data sangat membantu
bagi orang-orang yang membutuhkan untuk menganalisis data, seperti analis
atau ilmuwan data, dan ini sangat berguna untuk orang-orang non-teknis yang
perlu membuat keputusan dari data, tapi jangan bekerja dengan itu setiap hari.
Contoh memvisualisasikan data besar adalah dalam menampilkan suhu
pada peta berdasarkan wilayah. Dengan menggunakan sejumlah besar data
yang dikumpulkan oleh sensor dan satelit di luar angkasa, pemirsa dapat
memperolehnya dengan cepat dan mudah ringkasan di mana itu akan menjadi
panas atau dingin.Keamanan dan pemerintahan. Privasi data adalah bagian
penting dari era data besar. Bisnis dan individu harus memberikan pemikiran
yang bagus bagaimana data dikumpulkan, disimpan, digunakan, dan
diungkapkan. Pelanggaran privasi terjadi ketika ada akses tidak sah ke atau
pengumpulan, penggunaan, atau pengungkapan informasi pribadi dan,
seringkali, ini mengarah ke litigasi. Perusahaan harus menetapkan kontrol dan
privasi yang ketat kebijakan sesuai dengan kerangka hukum wilayah geografis
tempat mereka berada. Tata kelola data besar membutuhkan tiga hal: integrasi
otomatis, yaitu akses mudah ke data dimanapun ia tinggal, konten visual, yaitu
kategorisasi yang mudah, pengindeksan, dan penemuan dalam data besar
untuk mengoptimalkan penggunaannya, pemerintahan tangkas adalah definisi
dan eksekusi tata kelola yang sesuai dengan nilai data dan tujuan
penggunaannya. Melihat ketiga hal ini memberikan bisnis dengan cara cepat
untuk membuat profil tingkat kepentingan data dan, oleh karena itu, jumlah
keamanan diperlukan untuk melindunginya. Beberapa aplikasi yang digunakan
dalam big data adalah Hadoop, Oozie, Flume, Hive, HBase, Apache Pig,
Apache Spark, MapReduce dan YARN, Sqoop, ZooKeeper, dan analisis teks.
Kami membutuhkan orang-orang dengan keterampilan untuk menjalankan
aplikasi ini dan menganalisis data besar.
D. Modul 4 - Kasus Penggunaan BDU

Eksplorasi data besar menjawab tantangan yang dihadapi oleh setiap
organisasi besar. Informasi bisnis tersebar di beberapa sistem dan silo,
eksplorasi data besar memungkinkan untuk menjelajahi, dan menambang data
besar untuk menemukan, memvisualisasikan, dan memahami semua data,
untuk meningkatkan pengambilan keputusan. Dengan menciptakan tampilan
informasi yang terpadu di semua tempat maupun di luar organisasi Anda, Anda
mendapatkan peningkatan nilai dan wawasan baru. Mari kita lihat contoh
transportasi. Dengan menggunakan data dari sistem yang berbeda seperti
kamera di berbagai titik di kota, informasi cuaca, dan data GPS dari Uber, taksi,
truk, dan mobil, kami dapat memprediksi lalu lintas dengan kecepatan yang
lebih cepat dan lebih akurat untuk menerapkan sistem lalu lintas yang lebih
cerdas secara real-time yang meningkatkan arus lalu lintas.
Banyak sekali manfaat positif dari hal ini, termasuk pengurangan emisi
bahan bakar, perencanaan transportasi umum, dan infrastruktur transportasi
yang lebih tahan lama. Dengan munculnya mobil self-driving, algoritma
pembelajaran mesin dapat dilatih menggunakan sejarah dan data real-time dari
mobil yang dikemudikan manusia di jalan, ini akan mengajari mobil tanpa
pengemudi bagaimana perilaku pengemudi yang sebenarnya dalam situasi lalu
lintas yang berbeda dalam berbagai kondisi dan keadaan cuaca. Di era digital,
titik sentuh antara organisasi dan pelanggannya telah meningkat berkali-kali
lipat, organisasi sekarang membutuhkan solusi khusus untuk mengelola
koneksi ini secara efektif. Tampilan 360 derajat yang disempurnakan dari
pelanggan adalah pendekatan holistik, yang memperhitungkan semua
informasi yang tersedia dan bermakna tentang pelanggan untuk mendorong
keterlibatan, pendapatan, dan loyalitas jangka panjang yang lebih baik.
E. Modul 5 - Memproses Big Data

Teknik untuk Menganalisis Data, seperti Pengujian A/B, Pembelajaran
Mesin, dan Pemrosesan Bahasa Alami. Teknologi Big Data seperti Business
Intelligence, Komputasi Awan, dan Basis Data. Visualisasi seperti Bagan,
Grafik, dan Tampilan Lainnya dari datanya. Teknologi pemrosesan Big Data
yang akan kita bahas bekerja untuk membawa set besar terstruktur dan tidak
terstruktur data ke dalam format di mana analisis dan visualisasi dapat
dilakukan. Nilai hanya dapat diturunkan dari Big Data jika dapat direduksi atau
dikemas ulang ke dalam format yang dapat dipahami orang. Satu tren yang
memungkinkan terjadinya revolusi Big Data adalah pengembangan perangkat
lunak baru dan sistem database seperti Hadoop, HBase, dan NoSQL untuk
kumpulan data yang besar dan tidak terstruktur. Ada beberapa vendor yang
menawarkan Alat pemrosesan Big Data dan pendidikan Big Data. Kami akan
mulai dengan IBM, yang menjadi tuan rumah Big Data University dan Meja
Kerja Ilmuwan Data.
Data Scientist Workbench adalah kumpulan yang dihosting di cloud alat
sumber terbuka seperti OpenRefine, Jupyter Notebooks, Notebook Zeppelin,
dan RStudio.Ini menyediakan akses mudah ke Spark, Hadoop, dan berbagai
mesin analitik Big Data lainnya, selain bahasa pemrograman seperti Python,
R, dan Scala. Jadi apa itu kerangka Hadoop? Hadoop adalah kerangka kerja
perangkat lunak sumber terbuka digunakan untuk menyimpan dan memproses
sejumlah besar data. Ini diimplementasikan dalam beberapa modul khusus
yang berbeda: Penyimpanan, terutama menggunakan Sistem File Hadoop,
atau HDFS, Manajemen sumber daya dan penjadwalan untuk tugas komputasi,
Model pemrograman pemrosesan terdistribusi berdasarkan MapReduce,
Utilitas umum dan perpustakaan perangkat lunak diperlukan untuk seluruh
platform Hadoop. Hadoop adalah kerangka kerja yang ditulis dalam Java,
awalnya dikembangkan oleh Doug Cutting yang menamakannya setelah gajah
mainan anaknya. Hadoop menggunakan teknologi MapReduce Google
sebagai fondasinya. Di tinjau beberapa terminologi yang digunakan dalam
Diskusi hadoop. Sebuah node hanyalah sebuah komputer. Ini biasanya non-
perusahaan, perangkat keras komoditas yang berisi data. Jadi dalam contoh
ini, kita memiliki simpul satu, maka kita dapat menambahkan lebih banyak node
seperti node dua, node tiga, dan seterusnya.

Yuna Kristanto T1 Big Data

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Yuna Kristanto T1 Big Data

Diunggah oleh

Hak Cipta:

Format Tersedia

NAMA : YUNA KRISTANTO

A. Modul 1 – Apa itu Big Data?

B. Modul 2 - Big Data – Melampaui Hype

C. Modul 3 - Data Besar dan Ilmu Data

D. Modul 4 - Kasus Penggunaan BDU

E. Modul 5 - Memproses Big Data

Anda mungkin juga menyukai