Anda di halaman 1dari 6

SISTEM INFORMASI

“REVIEW BIG DATA APACHE SPARK”

Oleh :

M. Naufal Firdaus ( )

Eryan Rachman H. ( )

M. Falikul Isbah ( )
1. Big Data

Big Data adalah sebuah teknologi baru di dunia teknologi informasi yang
memungkinan proses pengolahan, penyimpanan dan analisis data dalam beragam
bentuk/format, berjumlah besar dan pertambahan data yang sangat cepat. Pengolahan dan
analisis data dalam jumlah sangat besar ini memerlukan waktu yang relatif jauh lebih singkat
dengan menggunakan Big Data dibanding teknologi data sebelumnya
Contoh Big Data dapat berupa data yang berukuran hingga petabytes (1,024 terabytes)
atau exabytes (1,024 petabytes), seperti milyaran hingga triliunan catatan personal seseorang
yang semuanya berasal dari sumber berbeda seperti web, sales, customer service, social
media, data mobile dan sebagainya.
Data-data ini biasanya tidak terstruktur, sering tidak lengkap dan tidak dapat diakses.
Pada saat berhadapan dengan kelompok data yang lebih besar, biasanya perusahaan
menghadapi kesulitan dalam membuat, memanipulasi dan mengelola Big Data. Namun,
dengan mengelola big data dengan baik, data-data tersebut dapat dianalisis untuk wawasan
yang mengarah pada pengambilan keputusan dan strategi bisnis yang lebih baik.
Pentingnya Big Data, tidak hanya berputar pada jumlah data yang organisasi miliki,
tetapi hal yang penting adalah bagaimana mengolah data internal dan eksternal. Kita dapat
mengambil data dari sumber manapun dan menganalisanya untuk menemukan jawaban yang
diinginkan.
Penerapan Big Data dalam perusahaan biasanya digunakan untuk IT logs Analytics
dan The Social Media Pattern. IT logs Analytics merupakan penyimpanan Log jangka
panjang, digunakan untuk analisa proses sistem yang sedang berjalan untuk mencegah dan
menaggulangi kegagalan dalam sistem, mengunakan hasil analisa log untuk menemukan dan
menentukan secara pasti kegagalan apa yang terjadi didalam sistem, menyiapkan langkah-
langkah pasti yang dapat digunakan sebagai solusi masalah sistem. Sedangkan The Social
Media Pattern merupakan pengunaan Big data untuk analisa media social dan sentiment
pelangan, memberikan kemampuan bagi perusahan untuk mengetahui keinginan customer
secara luas, mendapatkan feedback secara langsung, dan mengenali langsung dampak
sentimen terhadap penjualan, serta efektivitas dan penerimaan pelangan terhadap pemasaran
yang dilakukan.
Ketika saya mulai belajar Spark dengan Pyspark, saya menemukan platform Databricks dan
menjelajahinya. Platform ini memudahkan pengaturan lingkungan untuk menjalankan bingkai data
Spark dan mempraktikkan pengkodean. Posting ini berisi beberapa langkah yang dapat membantu
Anda memulai dengan Databricks.

Databricks adalah platform yang berjalan di atas Apache Spark. Ini nyaman memiliki pengaturan
sistem Notebook. Seseorang dapat dengan mudah menyediakan kluster di cloud, dan itu juga
menggabungkan ruang kerja yang terintegrasi untuk eksplorasi dan visualisasi.

Anda juga dapat menjadwalkan semua notebook yang ada atau kode Spark yang dikembangkan
secara lokal untuk beralih dari prototipe ke produksi tanpa rekayasa ulang.

1. Siapkan akun Databricks

Untuk memulai dengan tutorial, arahkan ke tautan ini dan pilih Edisi Komunitas gratis untuk
membuka akun Anda. Opsi ini memiliki satu kluster dengan penyimpanan gratis hingga 6 GB. Ini
memungkinkan Anda untuk membuat Notebook dasar. Anda memerlukan alamat email yang valid
untuk memverifikasi akun Anda.

Anda akan mengamati layar ini setelah Anda berhasil masuk ke akun Anda.

2. Membuat Cluster baru

Kami mulai dengan membuat klaster baru untuk menjalankan program kami. Klik pada "Cluster" di
halaman utama dan ketik nama baru untuk cluster.

Selanjutnya, Anda perlu memilih "Databricks Runtime" versi. Databricks Runtime adalah seperangkat
komponen inti yang berjalan di kelompok yang dikelola oleh Databricks. Ini termasuk Apache Spark,
tetapi juga menambahkan sejumlah komponen dan pembaruan untuk meningkatkan kegunaan dan
kinerja alat.

Anda dapat memilih versi Databricks Runtime - Saya telah memilih 3,5 LTS (termasuk Apache Spark
2.2.1, Scala 2.11). Anda juga memiliki pilihan antara Python 2 dan 3.

Ini akan memakan waktu beberapa menit untuk membuat kluster. Setelah beberapa waktu, Anda
seharusnya dapat melihat kluster yang aktif di dasbor.

3. Membuat Notebook baru

Mari lanjutkan dan buat Buku Catatan baru tempat Anda dapat menjalankan program Anda.

Dari halaman utama, tekan "New Notebook" dan ketik nama untuk Notebook. Pilih bahasa pilihan
Anda - saya memilih Python di sini. Anda dapat melihat bahwa Databricks mendukung banyak
bahasa termasuk Scala, R, dan SQL.

Setelah rincian dimasukkan, Anda akan mengamati bahwa tata letak notebook sangat mirip dengan
notebook Jupyter. Untuk menguji notebook, mari impor pyspark.
Perintah berlari dalam 0,15 detik dan juga memberikan nama klaster yang sedang berjalan. Jika ada
kesalahan dalam kode, itu akan ditampilkan di bawah kotak cmd.

Anda dapat menekan ikon keyboard di sudut kanan atas halaman untuk melihat pintasan khusus
sistem operasi.

Pintasan paling penting di sini adalah:

Shift + Enter untuk menjalankan sel


Ctrl + Enter terus menjalankan sel yang sama tanpa pindah ke sel berikutnya

Perhatikan pintasan ini untuk Windows. Anda dapat memeriksa pintas khusus OS untuk OS Anda
pada ikon keyboard.
4. Mengunggah data ke Databricks

Buka bagian "Tabel" di bilah kiri, dan tekan "Buat Tabel." Anda dapat mengunggah file, atau
menyambung ke sumber data Spark atau beberapa basis data lainnya.

Mari unggah file kumpulan data iris yang umum digunakan di sini (jika Anda tidak memiliki kumpulan
data, gunakan tautan ini)

Setelah Anda mengunggah data, buat tabel dengan UI sehingga Anda dapat memvisualisasikan tabel,
dan lihat dulu di kluster Anda. Seperti yang Anda lihat, Anda dapat mengamati atribut tabel. Spark
akan mencoba mendeteksi tipe data dari masing-masing kolom, dan memungkinkan Anda
mengeditnya juga.

Sekarang saya harus meletakkan tajuk kolom, jadi saya bisa mengidentifikasi setiap kolom dengan
header mereka, bukan _c0, _c1, dan seterusnya.

Saya menempatkan header mereka sebagai Sepal Length, Sepal Width, Petal Length, Petal Width
and Class. Di sini, Spark mendeteksi datatype dari empat kolom pertama yang salah sebagai String,
jadi saya mengubahnya ke tipe data yang diinginkan - Float.

5. Cara mengakses data dari Notebook

Spark adalah kerangka kerja yang dapat digunakan untuk menganalisis data besar menggunakan
SQL, pembelajaran mesin, pengolahan grafik atau analisis streaming real-time. Kami akan bekerja
dengan SparkSQL dan Dataframes dalam tutorial ini.

Mari mulai bekerja dengan data di Notebook. Data yang kami unggah sekarang dimasukkan dalam
format tabel. Kami memerlukan kueri SQL untuk membaca data dan memasukkannya ke dalam
dataframe.

Ketik df = sqlContext.sql (“SELECT * FROM iris_data”) untuk membaca data iris menjadi sebuah
dataframe.
Untuk melihat lima baris pertama dalam dataframe, saya dapat menjalankan perintah:

display (df.limit (5))

Perhatikan ikon bagan Bar di bagian bawah. Setelah Anda mengklik, Anda dapat melihat data yang
telah Anda impor ke Databricks. Untuk melihat grafik batang data lengkap, rundisplay (df) sebagai
ganti tampilan (df.limit (5)).

Tombol tarik turun memungkinkan Anda memvisualisasikan data dalam bagan yang berbeda seperti
bilah, pai, pencar, dan sebagainya. Ini juga memberi Anda opsi plot untuk menyesuaikan plot dan
memvisualisasikan kolom tertentu saja.

Anda juga dapat menampilkan figur matplotlib dan ggplot di Databricks. Untuk demonstrasi, lihat
Matplotlib dan ggplot di Python Notebook.

Untuk melihat semua kolom data, cukup ketik df.columns

Untuk menghitung berapa banyak baris yang ada dalam Dataframe (dan lihat berapa lama waktu
yang dibutuhkan untuk memindai penuh dari disket jarak jauh / S3), jalankan df.count ().

6. Konversi data frame Spark ke data frame Pandas.

Sekarang jika Anda merasa nyaman menggunakan pandas dataframe, dan ingin mengonversi Spark
dataframe ke panda, Anda dapat melakukan ini dengan meletakkan perintah

Sekarang Anda dapat menggunakan operasi panda di pandas_udf dataframe.

7. Melihat UI Spark

The Spark UI berisi banyak informasi yang diperlukan untuk debugging pekerjaan Spark. Ada banyak
visualisasi yang bagus, jadi mari kita melihatnya secara mendalam.

Untuk pergi ke Spark UI, Anda harus pergi ke bagian atas halaman di mana ada beberapa opsi menu
seperti "File," "Lihat," "Kode," "Izin," dan lainnya. Anda akan menemukan nama gugus di bagian atas
di samping "Terlampir" dan tombol tarik turun di sebelahnya. Tekan tombol dropdown dan pilih
"Lihat Spark UI." Tab baru akan terbuka dengan banyak informasi di Notebook Anda.

Tampilan UI memberikan banyak informasi tentang setiap pekerjaan yang dieksekusi pada gugus,
tahapan, lingkungan, dan kueri SQL yang dijalankan. UI ini dapat membantu pengguna untuk
melakukan debug aplikasi mereka. Selain itu, UI ini memberikan visualisasi yang baik pada statistik
streaming Spark. Untuk mempelajari lebih detail tentang setiap aspek dari UI Spark, lihat tautan ini.

Setelah Anda selesai dengan Notebook, Anda dapat melanjutkan dan mempublikasikannya atau
mengekspor file dalam format file yang berbeda, sehingga orang lain dapat menggunakannya
menggunakan tautan unik. Saya telah melampirkan Notebook saya dalam format HTML.
Membungkus

Ini adalah gambaran singkat tentang bagaimana Anda dapat memulai dengan Databricks dengan
cepat dan menjalankan program Anda. Keuntungan menggunakan Databricks adalah bahwa ia
menawarkan layanan end-to-end untuk membangun analitik, pergudangan data, dan aplikasi
pembelajaran mesin. Seluruh cluster Spark dapat dikelola, dipantau, dan diamankan menggunakan
model self-service dari Databricks.

Berikut adalah beberapa tautan menarik untuk Ilmuwan Data dan untuk Insinyur Data. Juga, di sini
adalah tutorial yang saya temukan sangat berguna dan sangat bagus untuk pemula.

Anda mungkin juga menyukai