Anda di halaman 1dari 8

BIG DATA

Google percaya bahwa di masa depan, setiap perusahaan akan menjadi perusahaan data.
Karena penggunaan data tercepat dan terbaik merupakan sumber penting dari keunggulan
kompetitif. Google Cloud menyediakan cara agar semua orang dapat memanfaatkan investasi
Google dalam bidang inovasi pemrosesan data dan infrastruktur. Google Cloud telah
mengotomatisasi kompleksitas dari pembuatan dan pemeliharaan data serta sistem analisis.
Dalam modul ini, saya akan menjelaskan tentang cara tercepat dalam mengoptimalkan
penggunaan data menggunakan teknologi Google. Baik Analytics Real Time maupun machine
learning. Fitur ini dimaksudkan agar Anda dapat menyematkan aplikasi secara mudah dan
praktis sehingga Anda bisa memberikan data ke pakar domain dan mendapatkan insight dengan
lebih cepat.

Solusi Big Data Google Cloud didesain untuk membantu Anda mentransformasi bisnis
dan pengalaman pengguna Anda dengan insight data yang komprehensif. Kami menyebutnya
Platform Tanpa Server yang Terintegrasi. Apa maksudnya? Tanpa server berarti Anda tidak
perlu khawatir tentang penyediaan instance Compute untuk menjalankan pekerjaan Anda.
Layanan ini terkelola sepenuhnya, dan Anda hanya membayar untuk resource yang digunakan.
Platform ini terintegrasi, sehingga layanan data GCP bekerja sama guna membantu Anda
membuat solusi khusus. Apache Hadoop adalah framework open source untuk big data.
Framework ini didasarkan pada model pemrograman MapReduce yang diciptakan dan
dipublikasikan oleh Google. Sederhananya, MapReduce berarti bahwa satu fungsi yang secara
tradisional disebut fungsi Peta, dijalankan secara paralel dengan set data besar untuk
menghasilkan hasil menengah. Dan fungsi lainnya, yang secara tradisional disebut fungsi
reduksi, akan membuat kumpulan hasil akhir berdasarkan hasil menengah tersebut. Istilah
Hadoop tersebut sering digunakan secara tidak formal untuk mencakup Apache Hadoop itu
sendiri, dan project yang terkait seperti Apache Spark, Apache Pig, dan Apache Hive. Cloud
Dataproc adalah cara yang cepat, mudah, dan terkelola untuk menjalankan Hadoop, Spark,
Hive, dan Pig di Google Cloud Platform. Anda cukup mengajukan permintaan cluster Hadoop.
Cluster Hadoop akan dibuat untuk Anda dalam waktu 90 detik atau kurang, berdasarkan mesin
virtual Compute Engine yang nomor dan jenisnya Anda kontrol. Jika Anda memerlukan lebih
sedikit atau lebih banyak daya pemrosesan saat cluster Anda dijalankan, Anda dapat melakukan
penskalaan. Anda dapat menggunakan konfigurasi default untuk software Hadoop di cluster
Anda atau Anda dapat menyesuaikannya. Anda juga dapat memantau cluster menggunakan
Stackdriver. Saat dijalankan secara lokal, pekerjaan Hadoop memerlukan investasi hardware
yang besar. Menjalankan pekerjaan ini di Cloud Dataproc memungkinkan Anda hanya
membayar resource hardware yang digunakan selama masa pakai cluster yang Anda buat.
Meskipun tarif harganya adalah per jam, Cloud Dataproc dibuat per detik. Cluster Cloud
Dataproc kami dibuat dalam penambahan waktu satu detik. Mengikuti penagihan minimum satu
menit. Jadi, saat Anda selesai dengan cluster, Anda dapat menghapusnya dan penagihan akan
berhenti. Ini adalah penggunaan resource yang lebih dinamis daripada aset hardware lokal. Anda
juga dapat menghemat biaya, dengan memberi tahu Cloud Dataproc untuk menggunakan
preemptible instance Compute Engine untuk batch processing Anda. Anda harus memastikan
bahwa pekerjaan Anda dapat dimulai ulang dengan jelas, jika dihentikan, dan Anda mendapatkan
pengurangan biaya yang signifikan untuk instance Anda. Saat video ini dibuat, harga preemptible
instance 80 persen lebih murah. Perlu diketahui bahwa biaya instance Compute Engine bukanlah
satu- satunya komponen biaya cluster Dataproc, tetapi biaya ini cukup signifikan. Setelah data
berada dalam cluster, Anda bisa memakai Spark dan Spark SQL untuk melakukan pemrosesan
data. Anda juga dapat menggunakan MLib, yaitu library machine learning Apache Spark untuk
menemukan pola melalui machine learning.

Cloud Dataflow adalah pilihan yang tepat Anda memiliki set data yang sudah diketahui
ukurannya atau saat ingin mengelola ukuran cluster Anda sendiri. Tetapi bagaimana jika data
Anda muncul secara real time atau ukuran atau tarifnya tidak terduga? Saat itulah Cloud
Dataflow merupakan pilihan yang tepat. Cloud Dataflow adalah layanan terkelola dan model
pemrograman terpadu, serta memungkinkan Anda mengembangkan dan menjalankan pola
pemrosesan data dalam cakupan yang luas; mengekstrak, mengubah, dan memuat komputasi
batch dan komputasi berkelanjutan. Anda menggunakan Dataflow untuk membuat pipeline data.
Pipeline yang sama berfungsi untuk data streaming dan batch. Tidak perlu menyiapkan cluster
atau mengubah ukuran instance. Cloud Dataflow sepenuhnya mengotomatisasi pengelolaan
pemrosesan resource apa pun yang diperlukan. Cloud Dataflow membebaskan Anda dari tugas
operasional seperti pengelolaan resource dan pengoptimalan performa. Dalam contoh ini,
pipeline Dataflow akan membaca data dari tabel BigQuery, yaitu sumber. Memprosesnya dengan
berbagai cara, yaitu transformasi. Dan menulis keluarannya di Cloud Storage, yaitu Sinkronisasi.
Beberapa transformasi yang Anda lihat di sini adalah operasi peta dan beberapa diantaranya
adalah operasi reduksi. Anda dapat membuat pipeline yang sangat ekspresif. Setiap langkah di
pipeline diskalakan secara elastis. Anda tidak perlu meluncurkan dan mengelola cluster. Sebagai
gantinya, layanan tersebut menyediakan semua resource sesuai permintaan. Layanan dilengkapi
dengan partisi otomatis dan optimal yang yang secara dinamis dapat menyeimbangkan kembali
pekerjaan yang terhambat sehingga akan mengurangi kekhawatiran terhadap hotkey. Situasi ini
terjadi saat sebagian besar masukan Anda dipetakan dalam cluster yang sama secara
proporsional.

Banyak orang menggunakan Dataflow dalam berbagai kasus penggunaan. Seperti yang
telah kita bahas, ini adalah tujuan umum fitur ETL dan kasus penggunaannya sebagai mesin
analisis data yang berguna untuk berbagai hal seperti deteksi penipuan dan layanan keuangan,
analisis IoT dalam bidang manufaktur, perawatan kesehatan, logistik, clickstream, tempat
penjualan, dan analisis segmentasi dalam bidang retail. Karena pipeline tersebut, kita dapat
mengelola beberapa layanan bahkan layanan eksternal. Pipeline tersebut dapat digunakan di
aplikasi real time seperti mempersonalisasi pengalaman pengguna game.

Misalnya, sebagai pengganti pipeline dinamis, data Anda perlu lebih banyak dijalankan
dengan cara menjelajahi lautan data yang luas. Anda ingin mengajukan kueri SQL ad hoc pada
set data besar. Itulah fungsi BigQuery. BigQuery adalah data warehouse analisis hemat biaya,
berskala petabyte, dan terkelola sepenuhnya. Karena tidak ada infrastruktur yang akan dikelola,
Anda dapat berfokus pada analisis data untuk menemukan insight berharga. Gunakan SQL yang
sudah banyak dikenal dan manfaatkan model yang dibayar sesuai penggunaan. Sangat mudah
memasukkan data ke BigQuery. Anda dapat memuatnya dari Cloud Storage atau Cloud
Datastore, atau melakukan streaming data ke BigQuery dengan kecepatan 100.000 baris per
detik. Begitu data dimasukkan, Anda dapat menjalankan kueri SQL super cepat terhadap
beberapa terabyte data dalam hitungan detik menggunakan daya pemrosesan infrastruktur
Google. Selain kueri SQL, Anda dapat dengan mudah membaca dan menulis data di BigQuery
melalui Cloud Dataflow, Hadoop, dan Spark. BigQuery digunakan oleh semua jenis organisasi,
dari startup perusahaan yang masuk dalam Fortune 500, organisasi yang lebih kecil menyukai
kuota bulanan gratis BigQuery, sedangkan organisasi yang lebih besar menyukai penskalaannya
yang lancar, dan BigQuery menyediakan 99,9 persen perjanjian tingkat layanan.

Infrastruktur Google bersifat global dan begitu juga BigQuery. BigQuery memungkinkan
Anda menentukan region tempat data Anda akan disimpan. Jadi, misalnya Anda ingin
menyimpan data di Eropa, Anda tidak perlu menyiapkan cluster di Eropa. Tentukan saja lokasi
EU tempat Anda membuat set data. Lokasi AS dan Asia juga tersedia. Karena BigQuery
memisahkan penyimpanan dan komputasi, Anda membayar penyimpanan data Anda secara
terpisah dari kueri. Artinya, Anda membayar kueri jika dijalankan. Anda memiliki kontrol penuh
atas pengguna yang dapat mengakses data yang tersimpan di BigQuery, termasuk membagikan
set data dengan pengguna dalam project yang berbeda. Jika membagikan set data yang tidak
akan memengaruhi biaya atau performa, pengguna yang Anda ajak berbagi tersebut membayar
kuerinya sendiri, bukan Anda. Harga penyimpanan jangka panjang adalah diskon otomatis untuk
data yang tersimpan di BigQuery dalam jangka waktu yang lama. Saat masa simpan data Anda
mencapai 90 hari di BigQuery, Google otomatis akan menurunkan harga penyimpanan.

Kapan pun Anda menangani peristiwa secara real time, akan sangat membantu jika Anda
memiliki layanan messaging. Itulah fungsi Cloud Pub/Sub. Cloud Pub/Sub dimaksudkan sebagai
dasar yang sederhana, dapat diandalkan, dan skalabel untuk analisis aliran data. Anda dapat
menggunakannya untuk mengizinkan aplikasi independen yang Anda buat agar dapat mengirim
dan menerima pesan. Dengan begitu, aplikasi akan dipisahkan. Jadi aplikasi menskalakan secara
terpisah. Pub dalam Pub/Sub adalah singkatan dari publisher dan Sub adalah singkatan dari
subscriber. Aplikasi dapat memublikasikan pesan di Pub/Sub dan satu atau beberapa pelanggan
dapat menerimanya. Menerima pesan tidak harus sinkron. Keunggulan inilah yang menjadikan
Pub/Sub pilihan yang tepat untuk memisahkan sistem. Pub/Sub didesain untuk memberikan
minimal satu kali pengiriman saat latensi rendah. Saat mengatakan minimal satu kali pengiriman,
maksudnya adalah ada kemungkinan kecil beberapa pesan dapat dikirimkan beberapa kali. Jadi,
perhatikan hal ini saat menulis aplikasi Anda. Cloud Pub/Sub menawarkan skalabilitas sesuai
permintaan hingga satu juta pesan per detik dan bahkan lebih. Anda hanya perlu memilih kuota
yang diinginkan.

Cloud Pub/Sub dibuat dengan teknologi yang digunakan secara internal oleh Google. Ini
adalah elemen penyusun yang penting untuk aplikasi tempat data dalam jumlah yang tinggi dan
tidak dapat diprediksi seperti sistem Internet of Things. Jika Anda menganalisis data streaming,
Cloud Dataflow adalah pasangan yang default untuk Pub/Sub. Pub/Sub juga berfungsi dengan
baik dengan aplikasi yang dibuat pada platform komputasi GCP. Anda dapat mengonfigurasi
subscriber untuk menerima pesan berdasarkan pengiriman push atau pull. Dengan kata lain,
subscriber akan diberi tahu saat ada pesan baru atau mereka dapat memeriksa pesan baru secara
berkala. Ilmuwan telah lama menggunakan notebook lab untuk menyusun konsep dan
menjelajahi data mereka. Untuk sains data, metafora notebook lab berfungsi dengan sangat baik,
karena terasa nyaman untuk menyelipkan komentar tentang hasil mereka pada analisis data.
Lingkungan yang populer untuk meng-hosting-nya adalah Project Jupyter. Project Jupyter
memungkinkan Anda membuat dan mempertahankan notebook berbasis web yang berisi kode
Phyton dan Anda dapat menjalankan kode tersebut secara interaktif dan melihat hasilnya. Selain
fungsi utamanya, Cloud Datalab juga melakukan tugas pengelolaan. Fitur ini dijalankan di mesin
virtual Compute Engine. Untuk memulainya, Anda menentukan jenis mesin virtual yang
diinginkan dan region GCP tempat mesin virtual tersebut akan dijalankan. Saat diluncurkan, fitur
ini memberikan lingkungan Phython interaktif yang siap untuk digunakan. Fitur ini juga
mengelola beberapa layanan GCP secara otomatis sehingga Anda dapat berfokus pada
penjelajahan data. Anda hanya membayar untuk resource yang digunakan. Tidak ada tagihan
tambahan untuk Datalab itu sendiri. Layanan ini terintegrasi dengan BigQuery, Compute Engine,
dan Cloud Storage, jadi saat mengakses data, Anda perlu melakukan autentikasi. Saat memulai
dan menjalankannya, Anda dapat memvisualisasikan data dengan diagram Google atau garis plot
peta dan karena ada komunitas Phyton interaktif yang dinamis, Anda dapat mempelajarinya dari
notebook yang dipublikasikan. Ada banyak paket yang tersedia untuk statistik, machine learning,
dan sebagainya.

Machine learning adalah satu cabang di bidang kecerdasan buatan. Ini adalah cara
pemecahan masalah tanpa melakukan coding solusi secara eksplisit. Sebagai gantinya, pembuat
kode merancang sistem yang meningkatkan performanya dari waktu ke waktu melalui eksposur
berulang terhadap data sampel yang disebut data pelatihan. Aplikasi utama Google menggunakan
machine learning seperti YouTube, Foto, Aplikasi Google Seluler, dan Google Terjemahan.
Platform Machine Learning Google kini tersedia sebagai layanan cloud sehingga Anda dapat
menambahkan kemampuan inovatif ke aplikasi Anda. Platform Machine Learning Cloud
menyediakan layanan machine learning modern dengan model yang terlatih sebelumnya dan
platform untuk menciptakan model yang sesuai dengan kebutuhan Anda. Sedangkan untuk
produk GCP lainnya, tersedia berbagai macam layanan, dari yang sangat umum hingga yang
telah disesuaikan sebelumnya. TensorFlow adalah library software open source yang sangat
cocok untuk aplikasi machine learning seperti jaringan neural. TensorFlow dikembangkan oleh
Tim Google Brain untuk penggunaan internal Google dan kemudian dijadikan open source agar
bermanfaat bagi semua orang. Anda dapat menjalankan TensorFlow di mana pun Anda suka
namun GCP adalah tempat ideal untuknya karena model machine learning memerlukan banyak
resource Compute sesuai permintaan dan banyak data pelatihan. TensorFlow juga dapat
memanfaatkan Tensor Processing Unit yang merupakan perangkat hardware yang didesain untuk
mempercerpat beban kerja machine learning dengan TensorFlow. GCP menyediakannya di cloud
dengan mesin virtual Compute Engine. Setiap TPU cloud menyediakan performa hingga 180
teraflop. Dan karena membayar sesuai penggunaan, Anda tidak perlu melakukan investasi modal
di muka. Misalnya Anda menginginkan layanan yang lebih terkelola. Google Cloud Machine
Learning Engine memungkinkan Anda membuat model machine learning yang berfungsi pada
semua jenis data dalam ukuran apa pun. Layanan ini dapat menangani model TensorFlow apa
pun dan menjalankan pelatihan skala besar pada cluster terkelola. Terakhir, misalnya Anda ingin
menambahkan berbagai kemampuan machine learning ke aplikasi Anda tanpa perlu
mengkhawatirkan detail cara menyediakannya. Google Cloud juga menawarkan berbagai
machine learning API yang cocok untuk tujuan tertentu. Dan saya akan membahasnya sebentar
lagi. Banyak orang menggunakan Platform Machine Learning Cloud untuk berbagai aplikasi.
Secara umum, platform tersebut dikelompokkan menjadi dua kategori bergantung pada apakah
data yang digunakan terstruktur atau tidak terstruktur. Berdasarkan data terstruktur, Anda dapat
menggunakan ML untuk berbagai jenis tugas klasifikasi dan regresi seperti analisis churn
pelanggan, diagnostik produk, dan perkiraan. ML bisa menjadi bagian inti mesin pemberi saran
untuk personalisasi konten serta cross-sell dan up-sell. Anda dapat menggunakan ML untuk
mendeteksi anomali seperti deteksi penipuan, diagnostik sensor, atau metrik log. Berdasarkan
data tidak terstruktur, And dapat mengunakan ML untuk analisis gambar seperti mengidentifikasi
pengiriman rusak, mengidentifikasi gaya, dan melaporkan konten. Anda juga bisa melakukan
analisis teks. Seperti pusat panggilan, analisis blog, identifikasi bahasa, klasifikasi topik, dan
analisis sentimen. Pada banyak aplikasi yang paling inovatif untuk machine learning, beberapa
jenis aplikasi ini digabungkan. Bagaimana jika setiap kali salah satu pelanggan memposting
pujian untuk salah satu produk Anda di media sosial, aplikasi Anda dapat secara otomatis
menghubungi mereka dengan diskon yang disesuaikan pada produk lain yang mungkin mereka
sukai. Platform Machine Learning Google Cloud menyediakan interaktivitas tersebut untuk
Anda.

Cloud Vision API memungkinkan developer memahami konten gambar. Fitur ini secara
cepat mengklasifikasikan gambar ke dalam ribuan kategori, seperti perahu layar, singa, Menara
Eiffel yang akan mendeteksi objek individual dalam gambar, mencari dan membaca kata yang
ada dalam gambar. Seperti API lain yang saya jelaskan di sini, API ini merangkum model
machine learning yang canggih di balik API yang mudah digunakan. Anda dapat
menggunakannya untuk membuat metadata pada katalog gambar, memoderasi konten yang
menyinggung, atau bahkan melakukan analisis sentimen gambar. Cloud Speech API
memungkinkan developer mengonversi audio ke teks karena Anda memiliki banyak basis
pengguna global. API ini mengenali lebih dari 80 bahasa dan varian. Anda dapat
mentranskripsikan teks dari pengguna, lalu mengejanya di mikrofon aplikasi, memungkinkan
perintah dan kontrol melalui suara atau mentranskripsikan file audio. Cloud Natural Language
API menawarkan berbagai teknologi natural language understanding kepada developer. Fitur ini
dapat melakukan analisis sintaks, yang mengelompokkan kalimat yang diberikan oleh pengguna
kami ke dalam token, mengidentifikasi kate benda, kata kerja, kata sifat, dan jenis kata lain serta
mencari tahu hubungan antar kata. Fitur ini dapat melakukan pengenalan entity. Dengan kata
lain, fitur ini dapat menguraikan teks dan melaporkan sebutan orang, organisasi, lokasi,
peristiwa, produk, dan media. Fitur tersebut dapat memahami keseluruhan sentimen yang
dinyatakan dalam sebuah blok teks. Fitur ini dilengkapi dengan kemampuan ini dalam berbagai
bahasa, termasuk bahasa Inggris, Spanyol, dan Jepang. Cloud Translation API menyediakan
antarmuka yang rapi dan terprogram untuk menerjemahkan string arbitrer ke dalam bahasa yang
didukung. Saat Anda tidak mengetahui bahasa asalnya, API tersebut dapat mendeteksinya. Cloud
Video Intelligence API memungkinkan Anda memberi anotasi ke video dalam berbagai format.
Tindakan ini membantu mengidentifikasi entity utama yang berupa kata benda dalam video
Anda dan kapan entity tersebut muncul. Anda dapat menggunakannya agar konten video Anda
tersedia di pencarian dan dapat ditemukan. Saat video ini dibuat, Layanan Cloud Video
Intelligence masih dalam versi beta. Jadi, buka situs GCP untuk melihat update versinya.

Anda mungkin juga menyukai