M12 Spark

Diunggah oleh

Yafi Shalihuddin

0% menganggap dokumen ini bermanfaat (0 suara)

5 tayangan12 halaman

Judul Asli

M12-SPARK

Hak Cipta

Format Tersedia

PDF, TXT atau baca online dari Scribd

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Laporkan Dokumen Ini

Hak Cipta:

Format Tersedia

Unduh sebagai PDF, TXT atau baca online dari Scribd

Tandai sebagai konten tidak pantas

0% menganggap dokumen ini bermanfaat (0 suara)

5 tayangan12 halaman

M12 Spark

Diunggah oleh

Yafi Shalihuddin

Hak Cipta:

Format Tersedia

Unduh sebagai PDF, TXT atau baca online dari Scribd

Tandai sebagai konten tidak pantas

Lompat ke Halaman

Anda di halaman 1dari 12

Cari di dalam dokumen

- SPARK -

Sumber data yang bisa diakses Spark

Cara kerja
• Lingkup kerja
• OS: Windows, Linux, Mac
• API Java, Scala Python, R

• Distributed file
• Data sharing
(Haddop : map reduce: lambat krn duplikasi, disk IO)
• Proses komputasi , RDD
• Resilent→ fault tolerance (tetap ada walaupun ada kegagalan) dengan sistem
lineage graph, di Hadoop fault tolerance dilakukan dengan duplikasi
• Distributed →data disimpan pada beberapa nodes (computer) yg ada di kluster
• Dataset → kumpulan data yang akan dikerjakan
Cara kerja
• Cara kerja kluster
• Cluster manager :
• standalone (default),
• Apache Mesos: general cluster manager
• Hadoop YARN: cluster manager Hadoop
• Pilihan : fitur scheduling, high availbality, security, sistem monitoring,
keamanan
• Proses data
• Batch processing
• Streamming/real time processing
Komponen Apache Spark
Spark core:
• Fondasi engine
• Fitur in-memory computing

Spark SQL
• Skema RDD (structured & unstructured)

Spark Streamming
• Kemampuan scheduling utk streaming process
• Mini-batch → RDD

MlLib
• Framework ML utk distributed computing
• (Konon) 9x lebih cepat dari Apache Mahout
• (Hadoop)

GraphX
• Framework graph processing utk
• distributed computing
PRAKTIK BIG DATA ANALYTICS DENGAN
APACHE SPARK
Cloud : https://datalore.jetbrains.com/
Dataset :
http://eforexcel.com/wp/downloads-20-sample-csv-files-data-sets-for-testing-till-2-million-
records-bank-transactions/
Dataset

4.138.476
Bahasan
• Data frame (DF)
• Data preprocessing
• Regresi
• Klasifikasi
• Sistem Rekomender
• Klaster Komputer: Master & Slave
Data Frame
• “Tabel”
• Baca file teks
• Eksplorasi dasar: min, max, standar deviasi, SQL
• Dataset:
D:\_00UTY\dinas\Pribadi\_BahanAjarUTY\BigDataBuku\Data-Mining-and-Big-Data-Analytics-Book-master\edisi2\purcase.csv
Program:
D:\_00UTY\dinas\Pribadi\_BahanAjarUTY\BigDataBuku\Data-Mining-and-Big-Data-Analytics-Book-master\edisi2\19.3.1
Pengenalan DataFrame dan SQL Spark.html
Data Preprocessing
• Data kurang ideal
• Duplikasi data, null
• Dataset
D:\_00UTY\dinas\Pribadi\_BahanAjarUTY\BigDataBuku\Data-Mining-and-Big-Data-Analytics-Book-
master\edisi2\airports.csv
Program :
19.3.2 Data Preprocessing di Spark.pdf
Regresi
• Kasus: melakukan prediksi berapa menit keterlambatan penerbangan
pesawat
• Luaran data bernilai kontinyu
• Dataset : flight.csv.
Klasifikasi

• Output data tdk kontinyu

• Dari kasus kmrn keterlambatan (menit) →” terlambat “ atau “tdk
terlambat”
• Algoritma logistic regression (LR)
• Pengembangan regresi
• Utk klasifikasi data biner (hy 2 kelas )
• Fungsi aktivasi sigmoid

Anda mungkin juga menyukai

Pertemuan 14
Dokumen16 halaman
Pertemuan 14
Lasroha Manullang
Belum ada peringkat
Kel.3 Big Data
Dokumen17 halaman
Kel.3 Big Data
Sarah Puspa Dewi
Belum ada peringkat
Isys6307 LN4 R1
Dokumen17 halaman
Isys6307 LN4 R1
Wasita Anggara
Belum ada peringkat
Presentasi Big Data - Apache Spark PDF
Dokumen11 halaman
Presentasi Big Data - Apache Spark PDF
Okghi 'Alimme
Belum ada peringkat
Tugas Big Data Raffly
Dokumen5 halaman
Tugas Big Data Raffly
raffly
Belum ada peringkat
TP3 - Dian Rahmad Dermawan
Dokumen6 halaman
TP3 - Dian Rahmad Dermawan
Dian Rahmad
Belum ada peringkat
Pertemuan 5 - HDFS, YARN Dan MapReduce
Dokumen24 halaman
Pertemuan 5 - HDFS, YARN Dan MapReduce
Leni
Belum ada peringkat
Apache Spark Untuk Pemrosesan Big Data
Dokumen3 halaman
Apache Spark Untuk Pemrosesan Big Data
Said achmad
Belum ada peringkat
Instalasi Scala, Apache Spark, Pyspark
Dokumen14 halaman
Instalasi Scala, Apache Spark, Pyspark
falahrohmawan
Belum ada peringkat
Siti Khofifah Fajirah Damanik - Tugas Manajemen Database
Dokumen7 halaman
Siti Khofifah Fajirah Damanik - Tugas Manajemen Database
menengrautul
Belum ada peringkat
Pertemuan 4 & 5 - Pengantar-Hadoop
Dokumen57 halaman
Pertemuan 4 & 5 - Pengantar-Hadoop
Leni
Belum ada peringkat
Database Server
Dokumen9 halaman
Database Server
SintaKusumaW
Belum ada peringkat
Big Data & Analytics
Dokumen12 halaman
Big Data & Analytics
Annas Rifa'i
Belum ada peringkat
Materi Ilkom Semester 2
Dokumen29 halaman
Materi Ilkom Semester 2
Putu Meylinda
Belum ada peringkat
Tugas Basis Data Roana
Dokumen9 halaman
Tugas Basis Data Roana
Roanaa Ronald
Belum ada peringkat
Kuliah - M3 - Introduction To Hadoop
Dokumen90 halaman
Kuliah - M3 - Introduction To Hadoop
Mohamad Iqbal Alamsyah
Belum ada peringkat
Tugas Kelompok 1 - Big Data - Apache Spark - Apriadi Noor - Akmal Marup - M. Nur Rahmi - Akmal Marup 2020
Dokumen5 halaman
Tugas Kelompok 1 - Big Data - Apache Spark - Apriadi Noor - Akmal Marup - M. Nur Rahmi - Akmal Marup 2020
elvin
Belum ada peringkat
MACAM
Dokumen7 halaman
MACAM
fuad
Belum ada peringkat
Basis Data-Pbm
Dokumen27 halaman
Basis Data-Pbm
chaira vein
Belum ada peringkat
Data Unification
Dokumen2 halaman
Data Unification
Gerungan Maragau
Belum ada peringkat
Bab 2 Data Analityc
Dokumen12 halaman
Bab 2 Data Analityc
rahmat gunawan
Belum ada peringkat
Tugas 1 - M Raffly Riyansyah Putera - 09011482326004
Dokumen5 halaman
Tugas 1 - M Raffly Riyansyah Putera - 09011482326004
raffly
Belum ada peringkat
Windows Server 2003 Fundamental
Dokumen4 halaman
Windows Server 2003 Fundamental
Muhammad Fattan
Belum ada peringkat
Big Data Dengan Hadoop
Dokumen41 halaman
Big Data Dengan Hadoop
Anjas Subhanuari
Belum ada peringkat
Lanjutan Share Hosting Materi ASJ Pertemuan Ketujuh
Dokumen6 halaman
Lanjutan Share Hosting Materi ASJ Pertemuan Ketujuh
bagus
Belum ada peringkat
Perbandingan DBMS
Dokumen5 halaman
Perbandingan DBMS
Fredy Harianto
Belum ada peringkat
Kisi - Kisi Dan Soal-Soal Retaker Profesional TIK
Dokumen16 halaman
Kisi - Kisi Dan Soal-Soal Retaker Profesional TIK
hendra novariadi
Belum ada peringkat
Makalah SBD
Dokumen5 halaman
Makalah SBD
Kang Bacot
Belum ada peringkat
Agustina WP - 21111009 - Tugas Belajar Mandiri Apache Spark
Dokumen3 halaman
Agustina WP - 21111009 - Tugas Belajar Mandiri Apache Spark
Agustina Pertiwi
Belum ada peringkat
Resume Sistem Informasi Laboratorium Medis
Dokumen3 halaman
Resume Sistem Informasi Laboratorium Medis
Indah Lestari
Belum ada peringkat
Pengertian Database Server
Dokumen7 halaman
Pengertian Database Server
Gilang Januar
Belum ada peringkat
MK Sistem Basis Data by ATS #7
Dokumen43 halaman
MK Sistem Basis Data by ATS #7
tomialimercusuar
Belum ada peringkat
Tugas Anita Ariana
Dokumen9 halaman
Tugas Anita Ariana
Mahmudatun Nisa
Belum ada peringkat
02 DBMS
Dokumen30 halaman
02 DBMS
Riza Septian Agus Arisandy
Belum ada peringkat
TK 3 Big Data Sisa No 1
Dokumen14 halaman
TK 3 Big Data Sisa No 1
to
Belum ada peringkat
Big Data - 7 - Muhammad Daffa A.R
Dokumen4 halaman
Big Data - 7 - Muhammad Daffa A.R
Daffa Athallah
Belum ada peringkat
Tugas Tik PPT Database Inas Nur Rafiah Xi Mipa 1
Dokumen14 halaman
Tugas Tik PPT Database Inas Nur Rafiah Xi Mipa 1
Sigans Mazzzeeh
Belum ada peringkat
58.CRUD PHP MySQLi Bootstrap Terbaru
Dokumen7 halaman
58.CRUD PHP MySQLi Bootstrap Terbaru
riris sigit
Belum ada peringkat
AzureDataFundamental - Asinkron3 - Listiani Clara Rowa
Dokumen8 halaman
AzureDataFundamental - Asinkron3 - Listiani Clara Rowa
Okumura Shounen OokamiBoy
Belum ada peringkat
Revisi
Dokumen3 halaman
Revisi
Putra Kurniawan S
Belum ada peringkat
Uraian Materi Pengenalan AWS RDS
Dokumen4 halaman
Uraian Materi Pengenalan AWS RDS
11806459 Abdullah Al Farizi
Belum ada peringkat
Cherry-Blossom-Season-In-Kyoto - PPTX (12) - 20240316 - 013957 - 0000
Dokumen15 halaman
Cherry-Blossom-Season-In-Kyoto - PPTX (12) - 20240316 - 013957 - 0000
Dani Meila
Belum ada peringkat
Hirarki Basis Data
Dokumen3 halaman
Hirarki Basis Data
Zidan Maulidi
Belum ada peringkat
Tugas Pengenalan Design Database Dan Manajemen Deva Nurindah Sari
Dokumen6 halaman
Tugas Pengenalan Design Database Dan Manajemen Deva Nurindah Sari
witriyuliani
Belum ada peringkat
Presentasi Big Data - Hadoop YARN PDF
Dokumen10 halaman
Presentasi Big Data - Hadoop YARN PDF
Okghi 'Alimme
Belum ada peringkat
PostgreSQL - QGIS
Dokumen14 halaman
PostgreSQL - QGIS
malaccaxteam
Belum ada peringkat
Ismail (Genap)
Dokumen16 halaman
Ismail (Genap)
Ismail
Belum ada peringkat
Minggu2-Arsitektur Data Warehouse
Dokumen24 halaman
Minggu2-Arsitektur Data Warehouse
Arida Ferti Syafiandini
Belum ada peringkat
Komputasi
Dokumen26 halaman
Komputasi
Gino Rambe
Belum ada peringkat
Sga &dbca
Dokumen9 halaman
Sga &dbca
ald44
Belum ada peringkat
Basis Data Eror Squad
Dokumen13 halaman
Basis Data Eror Squad
Ando Baniona
Belum ada peringkat
Streaming Data Twitter Menggunakan MongoDB
Dokumen9 halaman
Streaming Data Twitter Menggunakan MongoDB
Sudarman Sudarman
Belum ada peringkat
DBMS
Dokumen3 halaman
DBMS
Ivan D
Belum ada peringkat
Kelompok 4 - Tugas 2 BDA
Dokumen9 halaman
Kelompok 4 - Tugas 2 BDA
220660121003
Belum ada peringkat
Materi Database Server
Dokumen47 halaman
Materi Database Server
Afriiqnti
Belum ada peringkat
Analisis Mengenai DBMS
Dokumen5 halaman
Analisis Mengenai DBMS
Andi Seno
Belum ada peringkat
Pertemuan 5 PTSI
Dokumen12 halaman
Pertemuan 5 PTSI
Wiranata Arby
Belum ada peringkat
PENGENALAN My-SQL FAH
Dokumen27 halaman
PENGENALAN My-SQL FAH
ade
Belum ada peringkat
ID Rekayasa e Commerce Untuk Mendukung Peng
Dokumen11 halaman
ID Rekayasa e Commerce Untuk Mendukung Peng
Yafi Shalihuddin
Belum ada peringkat
Pertemuan 1
Dokumen6 halaman
Pertemuan 1
Yafi Shalihuddin
Belum ada peringkat
Notes SEO
Dokumen16 halaman
Notes SEO
Yafi Shalihuddin
Belum ada peringkat
Surat Undangan Musyawarah Besar IKPM Jawa Barat
Dokumen6 halaman
Surat Undangan Musyawarah Besar IKPM Jawa Barat
Yafi Shalihuddin
Belum ada peringkat
Kelompok Desain Interface
Dokumen2 halaman
Kelompok Desain Interface
Yafi Shalihuddin
Belum ada peringkat
Jurnal
Dokumen8 halaman
Jurnal
Yafi Shalihuddin
Belum ada peringkat
Sia Uty Ac Id
Dokumen2 halaman
Sia Uty Ac Id
Yafi Shalihuddin
Belum ada peringkat
Yafi Shalihuddin - UTS - Pancasila - E
Dokumen4 halaman
Yafi Shalihuddin - UTS - Pancasila - E
Yafi Shalihuddin
Belum ada peringkat
ID Analisa Dan Perancangan Jaringan Berbasi
Dokumen12 halaman
ID Analisa Dan Perancangan Jaringan Berbasi
Yafi Shalihuddin
Belum ada peringkat
Bab 6 Operator
Dokumen10 halaman
Bab 6 Operator
Yafi Shalihuddin
Belum ada peringkat
Uas - 5190411532 - Yafi Shalihuddin
Dokumen6 halaman
Uas - 5190411532 - Yafi Shalihuddin
Yafi Shalihuddin
Belum ada peringkat
UAS TI Rekayasa Web
Dokumen6 halaman
UAS TI Rekayasa Web
Yafi Shalihuddin
Belum ada peringkat
YAFI SHALIHUDDIN Penelitian Informatika
Dokumen14 halaman
YAFI SHALIHUDDIN Penelitian Informatika
Yafi Shalihuddin
Belum ada peringkat
8 Membangun Keluarga Islami
Dokumen25 halaman
8 Membangun Keluarga Islami
Yafi Shalihuddin
Belum ada peringkat
287-Article Text-741-1-10-20180515
Dokumen4 halaman
287-Article Text-741-1-10-20180515
Yafi Shalihuddin
Belum ada peringkat
MAKALAH WP - 5190411532 - Yafi Shalihuddin - Kelas C
Dokumen26 halaman
MAKALAH WP - 5190411532 - Yafi Shalihuddin - Kelas C
Yafi Shalihuddin
Belum ada peringkat
Soal UTS Riset Operasi Fix
Dokumen2 halaman
Soal UTS Riset Operasi Fix
Yafi Shalihuddin
Belum ada peringkat
Soal UTS MPPL Ganjil 2021-2022
Dokumen1 halaman
Soal UTS MPPL Ganjil 2021-2022
Yafi Shalihuddin
Belum ada peringkat
Laporan RESPONSI - Struktur Data Praktikum - Yafi Shalihuddin - 5190411532
Dokumen3 halaman
Laporan RESPONSI - Struktur Data Praktikum - Yafi Shalihuddin - 5190411532
Yafi Shalihuddin
Belum ada peringkat