NIM : 2019120023 Kelas : Karyawan 2019 MK : BIG DATA #Tugas 1
A. Modul 1 – Apa itu Big Data?
Bernard Marr mendefinisikan Big Data sebagai jejak digital yang kita hasilkan di era digital ini, dimana jejak digital ini terdiri dari semua data yang ditangkap ketika kita menggunakan teknologi digital. Ide dasar di balik ungkapan Big Data adalah bahwa semua yang kita lakukan semakin meninggalkan jejak digital yang bisa kita gunakan dan menganalisis untuk menjadi lebih pintar. Sedangkan menurut Gartner, mendefinisikan Big Data sebagai volume tinggi, kecepatan tinggi, dan/atau keragaman tinggi aset informasi yang menuntut hemat biaya, bentuk pemrosesan informasi yang inovatif yang memungkinkan peningkatan wawasan, pengambilan keputusan dan otomatisasi proses. Dan menurut Lisa Arthur, kontributor Forbes, ia mendefinisikan Big Data sebagai kumpulan data dari tradisionaldan sumber digital di dalam dan di luar perusahaan yang mewakili sumber penemuan dan analisis yang berkelanjutan. V dari Big Data. Velocity adalah kecepatan data, atau kecepatan pengumpulan data. Volume adalah skala data, atau peningkatan jumlah data yang disimpan.Varietas adalah keragaman data. Kami memiliki data terstruktur yang cocok dengan rapi ke dalam baris dan kolom, atau database relasional dan data tidak terstruktur yang tidak terorganisir dengan cara yang telah ditentukan sebelumnya, misalnya Tweet, posting blog, gambar, angka, dan bahkan data video. Veracity adalah kesesuaian dengan fakta dan akurasi. Dengan banyaknya data yang tersedia, perdebatan mengamuk tentang keakuratan data di era digital. Apakah informasi itu nyata, atau salah? Mari kita membongkar V lebih jauh. Kecepatan adalah gagasan bahwa data sedang dihasilkan sangat cepat, sebuah proses yang tidak pernah berhenti. Atribut termasuk streaming dekat atau real-time dan teknologi lokal dan berbasis cloud yang dapat memproses informasi dengan sangat cepat. Volume adalah jumlah data yang dihasilkan. Misalnya exabyte, zettabyte, yottabyte, dll. Penggerak volume adalah peningkatan sumber data, sensor resolusi lebih tinggi dan infrastruktur terukur. Veracity adalah kualitas dan asal data. Atribut meliputi konsistensi, kelengkapan, integritas, dan ambiguitas. Mesin rekomendasi adalah aplikasi umum dari data besar. Perusahaan seperti Amazon, Netflix, dan Spotify gunakan algoritma berdasarkan data besaruntuk membuat rekomendasi khusus berdasarkan preferensi pelanggan dan perilaku historis. Asisten pribadi seperti Siri di perangkat Apple gunakan data besar untuk menyusun jawaban untuk jumlah tak terbatas pertanyaan pengguna akhir mungkin bertanya. Google sekarang membuat rekomendasi berdasarkan data besar di perangkat pengguna. bagaimana konsumen menggunakan data besar, mari kita lihat seberapa besar data memengaruhi bisnis. Pada tahun 2011, McKinsey & Company mengatakan bahwa data besar akan menjadi dasar utama kompetisi mendukung gelombang baru pertumbuhan produktivitas dan inovasi. Pada tahun 2013, UPS mengumumkan bahwa mereka menggunakan data dari pelanggan, pengemudi dan kendaraandalam sistem panduan rute baru bertujuan untuk menghemat waktu, uang dan bahan bakar. Inisiatif seperti ini mendukung pernyataan tersebut bahwa data besar akan berubah secara fundamental cara bisnis bersaing dan beroperasi. Contohnya Netflix memiliki banyak data. Netflix mengetahui waktu saat film ditonton. Ini mencatat ketika pengguna menjeda, memundurkan, dan maju cepat. Ini memiliki peringkat dari jutaan pengguna serta informasi tentang pencarian yang mereka lakukan. Dengan melihat semua data besar ini, Netflix mengenal banyak penggunanya telah mengalirkan karya David Fincher dan film yang menampilkan Kevin Spacey selalu berhasil. Dan ia tahu bahwa House of Cards versi Inggris juga telah dilakukan dengan baik. Itu juga tahu bahwa orang-orang yang menyukai Fincher juga menyukai Spacey. Semua informasi ini disarankan bahwa membeli seri akan menjadi taruhan yang baik bagi perusahaan, dan sebenarnya itu. Dengan kata lain, berkat data besar, Netflix tahu apa yang diinginkan orang sebelum mereka melakukannya.
B. Modul 2 - Big Data – Melampaui Hype
Lebih banyak data telah dibuat dalam dua tahun terakhir daripada sepanjang sejarah umat manusia. Pada tahun 2020, sekitar 1,7 megabita informasi baru akan dibuat setiap detik untuk setiap manusia di dunia. Pada tahun 2020, data yang kami buat dan salin akan mencapai sekitar 35 zettabytes, naik dari hanya 7,9 zettabyte hari ini. Grafik di sebelah kanan menunjukkan pertumbuhan dalam data global dalam zettabytes. Perhatikan lonjakan dari 2015 ke 2020 sebesar 343%. Seberapa besar zettabyte? Satu bit adalah biner. Itu salah satu atau nol. Delapan bit membentuk satu byte, dan 1024 byte membuat satu kilobyte. 1024 kilobyte membuat satu megabyte. Video dan DVD berukuran besar akan berukuran gigabyte di mana 1024 megabyte membuat satu gigabyte ruang penyimpanan. Saat ini kami memiliki USB atau memory stick yang dapat menyimpan beberapa lusin gigabyte informasi tempat komputer dan hard drive sekarang disimpan terabyte informasi. Satu terabyte adalah 1025 gigabyte. 1024 terabyte membuat satu petabyte, dan 1024 petabyte merupakan exabyte. Pikirkan kota urban besar atau bandara internasional yang sibuk seperti Heathrow, JFK, O'Hare, Dubai, atau O. R. Tambo di Johannesburg. Dan sekarang kita berbicara tentang petabyte dan exabyte. Semua pesawat itu menangkap dan mengirimkan data. Semua orang di bandara tersebut memiliki perangkat seluler. Juga pertimbangkan kamera keamanan dan semua staf di dalam dan di sekitar bandara. Sebuah studi alam semesta digital yang dilakukan oleh IDC informasi digital yang diklaim tercapai 0,8 zettabytes tahun lalu dan memperkirakan angka ini akan tumbuh menjadi 35 zettabyte pada tahun 2020. Diperkirakan pada tahun 2020, sepersepuluh dari data dunia akan diproduksi oleh mesin, dan sebagian besar data dunia akan diproduksi di pasar negara berkembang. Diperkirakan juga jumlah data yang dihasilkan akan semakin melampaui penyimpanan yang tersedia. Kemajuan dalam komputasi awan telah berkontribusi dengan meningkatnya potensi Big Data. Menurut McKinsey pada 2013, kemunculan komputasi awan telah sangat berkontribusi hingga peluncuran era Big Data. Komputasi awan memungkinkan pengguna untuk mengakses sumber daya komputasi dan penyimpanan yang sangat skalabel melalui internet. Dengan menggunakan komputasi awan, perusahaan dapat menggunakan kapasitas server sesuai kebutuhan dan kembangkan dengan cepat untuk skala besar yang diperlukan untuk memproses kumpulan data besar dan menjalankan model matematika yang rumit. Komputasi awan menurunkan harga untuk menganalisis data besar karena sumber daya dibagikan ke banyak pengguna, yang hanya membayar untuk kapasitas yang sebenarnya mereka gunakan. Sebuah survei oleh IBM dan SAID Business School mengidentifikasi tiga sumber utama Big Data. Data yang dihasilkan orang, data yang dihasilkan mesin, dan data yang dihasilkan bisnis, yang merupakan data yang dihasilkan organisasi dalam operasi mereka sendiri. Bagan di sebelah kanan menunjukkan tanggapan yang berbeda di mana responden diizinkan untuk memilih beberapa jawaban. Big Data akan membutuhkan analis untuk memiliki keterampilan Big Data. Keterampilan Big Data termasuk menemukan dan menganalisis tren yang terjadi di Big Data. Big Data hadir dalam tiga bentuk. Terstruktur, tidak terstruktur, dan semi terstruktur. Data terstruktur adalah data yang terorganisir, diberi label, dan memiliki model ketat yang diikutinya. Data tidak terstruktur dikatakan membuat sekitar 80% data di dunia, di mana data biasanya dalam bentuk teks dan tidak memiliki model yang telah ditentukan sebelumnya atau diatur dengan cara apapun. Dan data semi terstruktur merupakan gabungan dari keduanya. Hal ini mirip dengan data terstruktur, di mana ia mungkin memiliki struktur yang terorganisir, tetapi tidak memiliki model yang didefinisikan secara ketat. Beberapa sumber Big Data terstruktur adalah database relasional dan spreadsheet. Dengan jenis struktur ini, kita tahu bagaimana dataterkait dengan data lain, apa arti data, dan datanya mudah untuk ditanyakan, menggunakan bahasa pemrograman seperti SQL. Beberapa sumber Big Data semi-terstruktur adalah file XML dan JSON. Sumber-sumber ini menggunakan tag atau penanda lainnya untuk menegakkan hierarki catatan dan bidang dalam data. Proyek teleskop multi- radio besar disebut Square Kilometer Array, atau SKA, menghasilkan sekitar 1000 petabyte, pada tahun 2011 setidaknya, data mentah per hari. Diproyeksikan akan menghasilkan sekitar 20.000 petabyte atau 20 miliar gigabyte data setiap hari pada tahun 2020. Saat ini, ada ledakan data berasal dari aktivitas internet dan khususnya, produksi dan konsumsi video serta aktivitas media sosial. Angka-angka ini akan terus bertambah karena kecepatan internet meningkat dan semakin banyak orang di seluruh dunia memiliki akses ke internet. Data terstruktur mengacu pada data apa pun yang berada di bidang tetap dalam catatan atau file. Ini memiliki keuntungan karena mudah dimasuki, disimpan, ditanyakan, dan dianalisis. Dalam pengaturan bisnis saat ini, sebagian besar Big Data dihasilkan oleh organisasi terstruktur dan disimpan di gudang data.
C. Modul 3 - Data Besar dan Ilmu Data
Ketika kita melihat data besar, maka mulai dengan beberapa topik luas: integrasi, analisis, visualisasi, optimalisasi, keamanan, dan tata kelola. Mari kita mulai dengan definisi singkat tentang integrasi. Mengintegrasikan berarti menyatukan atau menjadi keseluruhan. Dalam data besar, akan ideal untuk memiliki satu platform untuk mengelola semua data, bukan silo individu, masingmasing menciptakan silo wawasan yang terpisah. Data besar harus lebih besar dari hanya satu teknologi atau satu solusi perusahaan yang dibangun untuk satu tujuan. Misalnya, bank harus memikirkan bagaimana mengintegrasikan perbankan ritelnya, perbankan komersialnya, dan perbankan investasi. Salah satu cara untuk menjadi lebih besar dari satu teknologi adalah dengan menggunakan Hadoop ketika berhadapan dengan data besar. Sistem file terdistribusi Hadoop, atau HDFS, menyimpan data untuk banyak lokasi berbeda, menciptakan tempat terpusat untuk menyimpan dan memproses data. Banyak perusahaan besar menggunakan Hadoop dalam teknologi mereka. Analisis. Mari kita lihat contoh Walmart. Walmart menggunakan mesin pencari yang disebut Polaris, yang membantu pembeli mencari produk yang ingin mereka beli. Ini memperhitungkan bagaimana perilaku pengguna di situs web untuk menampilkan hasil terbaik bagi mereka. Polaris akan memunculkan item yang didasarkan pada pengguna minat dan, karena banyak konsumen mengunjungi Walmart's situs web, sejumlah besar data dikumpulkan, membuat analisis pada data besar itu sangat penting. Visualisasi. Beberapa orang bekerja dengan baik dengan tabel data, namun, sebagian besar orang membutuhkan data besar untuk disajikan kepada mereka dengan cara grafis sehingga mereka dapat memahaminya. Visualisasi data sangat membantu bagi orang-orang yang membutuhkan untuk menganalisis data, seperti analis atau ilmuwan data, dan ini sangat berguna untuk orang-orang non-teknis yang perlu membuat keputusan dari data, tapi jangan bekerja dengan itu setiap hari. Contoh memvisualisasikan data besar adalah dalam menampilkan suhu pada peta berdasarkan wilayah. Dengan menggunakan sejumlah besar data yang dikumpulkan oleh sensor dan satelit di luar angkasa, pemirsa dapat memperolehnya dengan cepat dan mudah ringkasan di mana itu akan menjadi panas atau dingin.Keamanan dan pemerintahan. Privasi data adalah bagian penting dari era data besar. Bisnis dan individu harus memberikan pemikiran yang bagus bagaimana data dikumpulkan, disimpan, digunakan, dan diungkapkan. Pelanggaran privasi terjadi ketika ada akses tidak sah ke atau pengumpulan, penggunaan, atau pengungkapan informasi pribadi dan, seringkali, ini mengarah ke litigasi. Perusahaan harus menetapkan kontrol dan privasi yang ketat kebijakan sesuai dengan kerangka hukum wilayah geografis tempat mereka berada. Tata kelola data besar membutuhkan tiga hal: integrasi otomatis, yaitu akses mudah ke data dimanapun ia tinggal, konten visual, yaitu kategorisasi yang mudah, pengindeksan, dan penemuan dalam data besar untuk mengoptimalkan penggunaannya, pemerintahan tangkas adalah definisi dan eksekusi tata kelola yang sesuai dengan nilai data dan tujuan penggunaannya. Melihat ketiga hal ini memberikan bisnis dengan cara cepat untuk membuat profil tingkat kepentingan data dan, oleh karena itu, jumlah keamanan diperlukan untuk melindunginya. Beberapa aplikasi yang digunakan dalam big data adalah Hadoop, Oozie, Flume, Hive, HBase, Apache Pig, Apache Spark, MapReduce dan YARN, Sqoop, ZooKeeper, dan analisis teks. Kami membutuhkan orang-orang dengan keterampilan untuk menjalankan aplikasi ini dan menganalisis data besar.
D. Modul 4 - Kasus Penggunaan BDU
Eksplorasi data besar menjawab tantangan yang dihadapi oleh setiap organisasi besar. Informasi bisnis tersebar di beberapa sistem dan silo, eksplorasi data besar memungkinkan untuk menjelajahi, dan menambang data besar untuk menemukan, memvisualisasikan, dan memahami semua data, untuk meningkatkan pengambilan keputusan. Dengan menciptakan tampilan informasi yang terpadu di semua tempat maupun di luar organisasi Anda, Anda mendapatkan peningkatan nilai dan wawasan baru. Mari kita lihat contoh transportasi. Dengan menggunakan data dari sistem yang berbeda seperti kamera di berbagai titik di kota, informasi cuaca, dan data GPS dari Uber, taksi, truk, dan mobil, kami dapat memprediksi lalu lintas dengan kecepatan yang lebih cepat dan lebih akurat untuk menerapkan sistem lalu lintas yang lebih cerdas secara real-time yang meningkatkan arus lalu lintas. Banyak sekali manfaat positif dari hal ini, termasuk pengurangan emisi bahan bakar, perencanaan transportasi umum, dan infrastruktur transportasi yang lebih tahan lama. Dengan munculnya mobil self-driving, algoritma pembelajaran mesin dapat dilatih menggunakan sejarah dan data real-time dari mobil yang dikemudikan manusia di jalan, ini akan mengajari mobil tanpa pengemudi bagaimana perilaku pengemudi yang sebenarnya dalam situasi lalu lintas yang berbeda dalam berbagai kondisi dan keadaan cuaca. Di era digital, titik sentuh antara organisasi dan pelanggannya telah meningkat berkali-kali lipat, organisasi sekarang membutuhkan solusi khusus untuk mengelola koneksi ini secara efektif. Tampilan 360 derajat yang disempurnakan dari pelanggan adalah pendekatan holistik, yang memperhitungkan semua informasi yang tersedia dan bermakna tentang pelanggan untuk mendorong keterlibatan, pendapatan, dan loyalitas jangka panjang yang lebih baik.
E. Modul 5 - Memproses Big Data
Teknik untuk Menganalisis Data, seperti Pengujian A/B, Pembelajaran Mesin, dan Pemrosesan Bahasa Alami. Teknologi Big Data seperti Business Intelligence, Komputasi Awan, dan Basis Data. Visualisasi seperti Bagan, Grafik, dan Tampilan Lainnya dari datanya. Teknologi pemrosesan Big Data yang akan kita bahas bekerja untuk membawa set besar terstruktur dan tidak terstruktur data ke dalam format di mana analisis dan visualisasi dapat dilakukan. Nilai hanya dapat diturunkan dari Big Data jika dapat direduksi atau dikemas ulang ke dalam format yang dapat dipahami orang. Satu tren yang memungkinkan terjadinya revolusi Big Data adalah pengembangan perangkat lunak baru dan sistem database seperti Hadoop, HBase, dan NoSQL untuk kumpulan data yang besar dan tidak terstruktur. Ada beberapa vendor yang menawarkan Alat pemrosesan Big Data dan pendidikan Big Data. Kami akan mulai dengan IBM, yang menjadi tuan rumah Big Data University dan Meja Kerja Ilmuwan Data. Data Scientist Workbench adalah kumpulan yang dihosting di cloud alat sumber terbuka seperti OpenRefine, Jupyter Notebooks, Notebook Zeppelin, dan RStudio.Ini menyediakan akses mudah ke Spark, Hadoop, dan berbagai mesin analitik Big Data lainnya, selain bahasa pemrograman seperti Python, R, dan Scala. Jadi apa itu kerangka Hadoop? Hadoop adalah kerangka kerja perangkat lunak sumber terbuka digunakan untuk menyimpan dan memproses sejumlah besar data. Ini diimplementasikan dalam beberapa modul khusus yang berbeda: Penyimpanan, terutama menggunakan Sistem File Hadoop, atau HDFS, Manajemen sumber daya dan penjadwalan untuk tugas komputasi, Model pemrograman pemrosesan terdistribusi berdasarkan MapReduce, Utilitas umum dan perpustakaan perangkat lunak diperlukan untuk seluruh platform Hadoop. Hadoop adalah kerangka kerja yang ditulis dalam Java, awalnya dikembangkan oleh Doug Cutting yang menamakannya setelah gajah mainan anaknya. Hadoop menggunakan teknologi MapReduce Google sebagai fondasinya. Di tinjau beberapa terminologi yang digunakan dalam Diskusi hadoop. Sebuah node hanyalah sebuah komputer. Ini biasanya non- perusahaan, perangkat keras komoditas yang berisi data. Jadi dalam contoh ini, kita memiliki simpul satu, maka kita dapat menambahkan lebih banyak node seperti node dua, node tiga, dan seterusnya.