Anda di halaman 1dari 7

Tugas Personal ke-2

Week 7
Jefri Setia Prayoga - 2402004436

Jawablah soal berikut dengan benar!

A. Soal Essay.
1. Apa yang yang dimaksud dengan clustering dan yang membedakan
clustering dengan klasifikasi?
Jawab :
Clustering  atau klasterisasi adalah metode pengelompokan data. Menurut Tan,
2006 clustering adalah sebuah proses untuk mengelompokan data ke dalam
beberapa  cluster  atau kelompok sehingga data dalam satu  cluster  memiliki
tingkat kemiripan yang maksimum dan data antar   cluster  memiliki kemiripan
yang minimum.

Pengetahuan yang dihasilkan oleh metode clustering berupa cluster,


sedangkan pengetahuan yang dihasilkan oleh metode classification berupa
selain cluster (bisa Decision Tree, Ruleset, Weight pada BackPropagation,
dan lain-lain).

Clustering dipakai ketika tidak diketahuinya bagaimana data harus


dikelompokkan. Jumlah kelompok diasumsikan sendiri tanpa ditentukan
terlebih dahulu. Keluaran pendekatan ini adalah data yang sudah
dikelompokkan. Sedangkan classification, terdapat informasi mengenai
bagaimana data tersebut dikelompokkan. Kemudian dilakukan training pada
sistem dengan data yang sudah diberikan label (ke dalam kelompok
manakah data tersebut dikelompokkan), selanjutnya sistem akan
mengklasifikasikan data-data yang baru ke dalam kelompok yang ada.
Tidak akan ada pertambahan kelompok.

Secara formal clustering di definisikan sebagai suatu proses unsupervised


untuk mengelempokan data yang memiliki karakteristik tertentu yang
sama. Sedangkan classification digolongkan dalam proses supervised.

COMP6725 - Big Data Technologies


Referensi :
https://softscients.com/2020/04/02/apa-perbedaan-antara-klustering-dan-
klasifikasi/
https://asagita.wordpress.com/2012/05/09/perbedaan-classification-dan-
clustering/

2. Algoritma penjadwalan yang dimiliki oleh Hadoop adalah? Jelaskan dengan


contoh penerapannya
Jawab :
Scheduler adalah komponen pluggable di Hadoop yang memungkinkan
untuk mendukung algoritma penjadwalan yang berbeda. Kerangka kerja
scheduler pluggable memberikan fleksibilitas untuk mendukung berbagai
beban kerja dengan berbagai prioritas dan kendala kinerja. Algoritma
penjadwalan Hadoop dijelaskan sebagai berikut:
•FIFO
Penjadwal FIFO mempertahankan antrian pekerjaan di mana pekerjaan
diantrekan. Penjadwal menarik pekerjaan dengan cara first-in-first-out
(pekerjaan tertua terlebih dahulu) untuk penjadwalan. Tidak ada konsep
prioritas atau ukuran pekerjaan dalam penjadwal FIFO.

•FairScheduler
Fair Scheduler awalnya dikembangkan oleh Facebook. Facebook
menggunakan Hadoop untuk mengelola konten besar dan data log yang
terakumulasi setiap hari. Kami memahami bahwa kebutuhan akan Fair
Scheduler muncul ketika Facebook ingin berbagi infrastruktur pergudangan
datadi antara banyak pengguna.
Fair Scheduler mengalokasikan sumber daya secara merata di
antara banyak pekerjaan dan juga memberikan jaminan kapasitas. Fair
Scheduler menetapkan sumber daya ke pekerjaan sedemikian rupa
sehingga
setiap pekerjaan mendapat bagian yang sama dari sumber daya yang
tersedia secara rata-rata dari waktu ke waktu. Tidak seperti penjadwal
FIFO, yang membentuk antrian pekerjaan, Fair Scheduler memungkinkan
pekerjaan pendek selesai dalam waktu yang wajar tanpa membuat
pekerjaan panjang kelaparan.
Fair Scheduler berguna ketika kluster Hadoop kecil atau besar dibagikan di
antara beberapa grup pengguna dalam suatu organisasi. Meskipun Fair
Scheduler memastikan keadilan dengan mempertahankan satu set
kumpulan
dan menyediakan kapasitas yang dijamin untuk setiap kumpulan, itu tidak
memberikan jaminan waktu apa pun dan karenanya tidak dilengkapi
dengan
baik untuk pekerjaan waktu nyata.

Jefri Setia Prayoga - 2402004436 ©Arif 2|7


3. Spark resilient distributed dataset (RDD) mendukung dua jenis operas i,
sebut dan jelaskan?
Jawab :
Resilient Distributed Datasets (RDDs) adalah kumpulan elemen yang
toleran terhadap kesalahan yang dapat didistribusikan di antara beberapa
node dalam sebuah cluster dan bekerja secara paralel. RDD adalah
struktur dasar di Apache Spark. Spark memuat data dengan
mereferensikan sumber data atau dengan memparalelkan koleksi yang ada
dengan metode paralelisasi SparkContext ke dalam RDD untuk diproses.
RDDs memiliki 2 tipe operasi:
a) Transformation: mengonstruksi/membuat RDD baru dari satu atau
lebih dari yang ada sebelumnya. Contoh: map(), filter(), flatmap()
b) Actions: menghitung hasil dari suatu komputasi berdasarkan RDD dan
memberikan return/kembalian kepada program driver atau simpan ke
penyimpanan eksternal. Contoh: reduce(), collect(), count(), first(),
take()
 Semua transformasi di Spark bersifat lazy , tidak langsung menghitung
hasil, tapi mengingat transformasi yang diberikan pada dataset
• Transformasi hanya akan dihitung setelah suatu action meminta hasil
untuk diberikan ke program driver

Referensi :
http://malifauzi.lecture.ub.ac.id/files/2019/02/Spark.pdf
https://www.plimbi.com/article/177689/apache-spark

4. Jelaskan Teknik Analisa untuk penggunaan big data?


Jawab :
Berbagai teknik analisa yang terlibat dalam Big Data adalah:

Jefri Setia Prayoga - 2402004436 ©Arif 3|7


a. Analisis kuantitatif.
Data kuantitatif adalah data yang didasarkan pada angka. Analisis
kuantitatif dalam big data adalah analisis data kuantitatif. Tujuan utama
dari jenis analisis statistik ini adalah kuantifikasi. Hasil dari populasi
sampel dapat digeneralisasikan ke seluruh populasi yang diteliti.
Berbagai jenis data kuantitatif yang digunakan untuk analisis kuantitatif
adalah:
• Data nominal—Ini adalah jenis data kategorikal di mana data
dijelaskan
berdasarkan kategori. Jenis data ini tidak memiliki signifikansi numerik.
Operasi aritmatika tidak dapat dilakukan pada jenis data ini. Contohnya
adalah jenis kelamin (laki-laki, perempuan) dan tinggi badan (tinggi,
pendek).
• Data ordinal—Urutan atau peringkat data adalah yang terpenting
dalam data ordinal, bukan perbedaan antar data. Operator aritmatika >
dan < digunakan. Misalnya, ketika seseorang diminta untuk
mengekspresikan kebahagiaannya pada skala 1-10, skor 8 berarti orang
tersebut lebih bahagia daripada skor 5, yang lebih dari skor 3. Nilai-nilai
ini hanya mengungkapkan urutan kebahagiaan. Contoh lainnya adalah
peringkat yang berkisar dari satu bintang hingga bintang lima, yang
digunakan di beberapa aplikasi seperti peringkat film, konsumsi
perangkat elektronik saat ini, dan kinerja aplikasi android.
• Data interval—Dalam kasus data interval, tidak hanya urutan data
yang
penting, tetapi perbedaan di antara mereka juga penting. Salah satu
contoh umum dari data ordinal adalah perbedaan suhu dalam Celcius.
Perbedaan antara 50 °C dan 60 °C sama dengan perbedaan antara 70
°C dan 80 °C. Dalam skala waktu, peningkatannya konsisten dan
terukur.
• Data rasio—Variabel rasio pada dasarnya adalah data interval dengan
properti tambahan yang nilainya dapat benar-benar nol. Nilai nol pada
rasio menunjukkan bahwa variabel tersebut tidak ada. Tinggi badan,
berat badan, dan umur adalah contoh data rasio. Misalnya 40 dari 10
tahun. Sedangkan data-data seperti suhu merupakan variabel rasio
karena 0°C bukan berarti suhu tidak ada.

b. Analisis kualitatif.
Analisis kualitatif dalam data besar adalah analisis data dalam
pengaturan alami mereka. Data kualitatif adalah data yang tidak mudah
direduksi menjadi angka. Cerita, artikel, komentar survei, transkripsi,
percakapan, musik, grafik, seni, dan gambar adalah data kualitatif.
Analisis kualitatif pada dasarnya menjawab pertanyaan “bagaimana”,
“mengapa”, dan “apa”. Pada dasarnya ada dua pendekatan dalam
analisis data kualitatif, yaitu pendekatan deduktif dan pendekatan
induktif. Analisis deduktif dilakukan dengan menggunakan pertanyaan
penelitian untuk mengelompokkan data yang diteliti dan kemudian dicari
persamaan atau
perbedaannya. Pendekatan induktif dilakukan dengan menggunakan
kerangka penelitian yang muncul untuk mengelompokkan data dan
kemudian mencari hubungan di dalamnya.

c. Analisis statistik.

Jefri Setia Prayoga - 2402004436 ©Arif 4|7


Analisis statistik menggunakan metode statistik untuk menganalisis
data. Adapun teknik analisis statistik yang dijelaskan adalah:
• Pengujian A/B;
Pengujian A/B juga disebut pengujian split atau pengujian bucket adalah
metode yang membandingkan dua versi objek yang diminati untuk
menentukan mana di antara dua versi yang berkinerja lebih baik.
Elemen yang dianalisis dapat berupa halaman web atau penawaran
online pada produk. Kedua versi tersebut adalah versi A, yang
merupakan versi saat ini dan disebut versi kontrol, dan versi yang
dimodifikasi, versi B, disebut perawatan. Baik versi A dan versi B diuji
secara bersamaan, dan hasilnya dianalisis untuk menentukan versi yang
berhasil. Misalnya, dua versi halaman web yang berbeda untuk
pengunjung dengan minat yang sama. Versi yang berhasil adalah yang
memiliki tingkat konversi lebih tinggi. Ketika versi situs web e-niaga
dibandingkan, versi dengan lebih banyak pembeli akan dianggap
berhasil. Demikian pula, situs web baru yang memenangkan lebih
banyak langganan berbayar dianggap sebagai versi yang berhasil. Apa
pun di situs web seperti judul, gambar, tautan, teks
paragraf, dan sebagainya, dapat diuji.
• Korelasi.
Korelasi adalah metode yang digunakan untuk menentukan ada tidaknya
hubungan antara dua variabel, yaitu untuk menentukan apakah
keduanya
berkorelasi. Jika mereka berkorelasi, jenis korelasi antara variabel
ditentukan. Jenis korelasi ditentukan dengan memantau variabel kedua
ketika variabel pertama meningkat atau menurun.

 Regresi.
Regresi adalah teknik yang digunakan untuk menentukan hubungan
antara variabel dependen dan variabel independen. Variabel dependen
adalah variabel hasil atau variabel respons atau variabel prediksi,
dilambangkan dengan "Y", dan variabel independen adalah prediktor
atau penjelas atau variabel pembawa atau variabel input, dilambangkan
dengan "X." Teknik regresi digunakan ketika ada hubungan antara
variabel. Hubungan tersebut dapat ditentukan dengan scatterplot.
Hubungan tersebut dapat dimodelkan dengan memasang titik-titik data
pada persamaan linier. persamaan linearnya adalah
Y = a + bX,
dimana,
X = variabel bebas,
Y = variabel terikat,
a = intersep, nilai Y saat X = 0, dan
b = kemiringan garis.

Referensi : Lecture Note Big Data Minggu ke 7 – Big Data Analytics

5. Apa yang dimaksud dengan analisis batch? Serta berikan contoh tools yang
menggunakan konsep tersebut?
Jawab :
Analisis Batch

Jefri Setia Prayoga - 2402004436 ©Arif 5|7


Blok analitik batch di tumpukan data besar mencakup berbagai kerangka
kerja yang memungkinkan analisis data dalam kumpulan. Ini termasuk
yang berikut:
• Hadoop-MapReduce: Hadoop adalah kerangka kerja untuk pemrosesan
batch terdistribusi dari data besar. Model pemrograman MapReduce
digunakan untuk mengembangkan pekerjaan analisis batch yang
dieksekusi di cluster Hadoop.
• Pig: Pig adalah bahasa pemrosesan data tingkat tinggi yang memudahkan
pengembang untuk menulis skrip analisis data yang diterjemahkan ke
dalam
program MapReduce oleh kompiler Pig.
• Oozie: Oozie adalah sistem penjadwal alur kerja yang memungkinkan
pengelolaan tugas Hadoop. Dengan Oozie, Anda dapat membuat alur kerja
yang merupakan kumpulan tindakan (seperti pekerjaan MapReduce) yang
disusun sebagai Grafik Acyclic Langsung (DAG).
• Spark: Apache Spark adalah kerangka kerja komputasi cluster open-
source
untuk analisis data. Spark mencakup berbagai alat tingkat tinggi untuk
analisis data seperti Spark Streaming untuk tugas streaming, Spark SQL
untuk analisis data terstruktur, perpustakaan pembelajaran mesin MLlib
untuk Spark, dan GraphX untuk pemrosesan grafik.
• Solr: Apache Solr adalah kerangka kerja scalable dan open-source untuk
mencari data.
• Machine Learning: Spark MLlib adalah perpustakaan machine learning
Spark yang menyediakan implementasi berbagai algoritme machine
learning. H2O adalah kerangka kerja analitik prediktif sumber terbuka yang
menyediakan implementasi berbagai algoritme machine learning.
Referensi : Lecture note Big data

6. Apakah perbedaan antara Analisa kualitatif, kuantitatif dan Analisa


statistic?
Jawab :
 Analisis Data kualitatif digunakan untuk menggali pertanyaan-
pertanyaan yang berkaitan dengan alasan-alasan suatu
permasalahan dan bersifat investigasi. Sehingga teknik analisis
data kualitatif biasanya dilakukan untuk mengetahui permasalah
secara mendalam dari suatu penelitian maka hanya membutuhkan
sedikit responden.
 Berbeda dengan data kualitatif, Analisis data kuantitatif lebih
terstruktur dan bersifat terstruktur, kaku, terdefinisi dan lebih
objektif. Hal itu karena data kuantitatif dapat diukur dengan angka
dan grafik sehingga akan membutuhkan lebih banyak responden.
Data kuantitatif diukur berdasarkan angka dan grafik agar dapat
menguji atau mengkonfirmasi teori serta asumsi dalam penelitian
sehingga lebih mengedepankan fakta yang dapat digeneralisasikan
tentang suatu topik penelitian.
 Analisis statistik adalah sebuah proses pengolahan data yang
meliputi pemeriksaan, pembersihan, transformasi, pemrosesan,
dan pemodelan data. Tujuannya adalah untuk menemukan
informasi yang berguna dan dapat digunakan sebagai dasar dalam
pengambilan kesimpulan atau keputusan. Proses ini menerapkan
metode atau teknik statistik sesuai dengan data yang dimiliki.

Jefri Setia Prayoga - 2402004436 ©Arif 6|7


Referensi :
https://www.dqlab.id/perbedaan-teknik-analisis-data-kualitatif-vs-
kuantitatif
https://www.dqlab.id/analisis-statistik-adalah-pahami-pengertian-dan-
jenis-data-yang-digunakan

Jefri Setia Prayoga - 2402004436 ©Arif 7|7

Anda mungkin juga menyukai