Week 7
Jefri Setia Prayoga - 2402004436
A. Soal Essay.
1. Apa yang yang dimaksud dengan clustering dan yang membedakan
clustering dengan klasifikasi?
Jawab :
Clustering atau klasterisasi adalah metode pengelompokan data. Menurut Tan,
2006 clustering adalah sebuah proses untuk mengelompokan data ke dalam
beberapa cluster atau kelompok sehingga data dalam satu cluster memiliki
tingkat kemiripan yang maksimum dan data antar cluster memiliki kemiripan
yang minimum.
•FairScheduler
Fair Scheduler awalnya dikembangkan oleh Facebook. Facebook
menggunakan Hadoop untuk mengelola konten besar dan data log yang
terakumulasi setiap hari. Kami memahami bahwa kebutuhan akan Fair
Scheduler muncul ketika Facebook ingin berbagi infrastruktur pergudangan
datadi antara banyak pengguna.
Fair Scheduler mengalokasikan sumber daya secara merata di
antara banyak pekerjaan dan juga memberikan jaminan kapasitas. Fair
Scheduler menetapkan sumber daya ke pekerjaan sedemikian rupa
sehingga
setiap pekerjaan mendapat bagian yang sama dari sumber daya yang
tersedia secara rata-rata dari waktu ke waktu. Tidak seperti penjadwal
FIFO, yang membentuk antrian pekerjaan, Fair Scheduler memungkinkan
pekerjaan pendek selesai dalam waktu yang wajar tanpa membuat
pekerjaan panjang kelaparan.
Fair Scheduler berguna ketika kluster Hadoop kecil atau besar dibagikan di
antara beberapa grup pengguna dalam suatu organisasi. Meskipun Fair
Scheduler memastikan keadilan dengan mempertahankan satu set
kumpulan
dan menyediakan kapasitas yang dijamin untuk setiap kumpulan, itu tidak
memberikan jaminan waktu apa pun dan karenanya tidak dilengkapi
dengan
baik untuk pekerjaan waktu nyata.
Referensi :
http://malifauzi.lecture.ub.ac.id/files/2019/02/Spark.pdf
https://www.plimbi.com/article/177689/apache-spark
b. Analisis kualitatif.
Analisis kualitatif dalam data besar adalah analisis data dalam
pengaturan alami mereka. Data kualitatif adalah data yang tidak mudah
direduksi menjadi angka. Cerita, artikel, komentar survei, transkripsi,
percakapan, musik, grafik, seni, dan gambar adalah data kualitatif.
Analisis kualitatif pada dasarnya menjawab pertanyaan “bagaimana”,
“mengapa”, dan “apa”. Pada dasarnya ada dua pendekatan dalam
analisis data kualitatif, yaitu pendekatan deduktif dan pendekatan
induktif. Analisis deduktif dilakukan dengan menggunakan pertanyaan
penelitian untuk mengelompokkan data yang diteliti dan kemudian dicari
persamaan atau
perbedaannya. Pendekatan induktif dilakukan dengan menggunakan
kerangka penelitian yang muncul untuk mengelompokkan data dan
kemudian mencari hubungan di dalamnya.
c. Analisis statistik.
Regresi.
Regresi adalah teknik yang digunakan untuk menentukan hubungan
antara variabel dependen dan variabel independen. Variabel dependen
adalah variabel hasil atau variabel respons atau variabel prediksi,
dilambangkan dengan "Y", dan variabel independen adalah prediktor
atau penjelas atau variabel pembawa atau variabel input, dilambangkan
dengan "X." Teknik regresi digunakan ketika ada hubungan antara
variabel. Hubungan tersebut dapat ditentukan dengan scatterplot.
Hubungan tersebut dapat dimodelkan dengan memasang titik-titik data
pada persamaan linier. persamaan linearnya adalah
Y = a + bX,
dimana,
X = variabel bebas,
Y = variabel terikat,
a = intersep, nilai Y saat X = 0, dan
b = kemiringan garis.
5. Apa yang dimaksud dengan analisis batch? Serta berikan contoh tools yang
menggunakan konsep tersebut?
Jawab :
Analisis Batch