Makabnasdjsad

minggu 1 dan 2
1. Apa keuntungan utama menggunakan NoSQL:

a. Cost-effective
b. Schema yang fleksibel
c. Skalabilitas
d. Data Consistency
2. Apa peran Machine Learning dalam Big Data:

Select one:
a. Data Acquisition
b. Data Storage
c. Data Visualization
d. Data Analysis dan Pattern Recognition
3. Apa peran NameNode di dalam cluster Big Data/Hadoop:

a. Mengelola resource cluster
b. Menyimpan dan mengambil data
c. Mengelola Metadata dan Struktur file
d. Eksekusi job MapReduce
4. Apa yang tidak termasuk ciri perusahaan 1.0:

a. Internal Decision
b. Analitik Deskriptif
c. Tim Hybrid Business/Data
d. Back-Office Analyst
5. Apa yang tidak termasuk definisi big data:

a. Value
b. Veracity
c. Variety
d. Voluntary
6. Berikut adalah contoh data tak-terstruktur:

a. Data Inventory
b. Postingan Social Media
c. Penjualan
d. Alamat Nasabah
7. Berikut ini adalah pernyataan yang benar tentang Hadoop:

a. Semua Benar
b. Dapat memproses data secara paralel
c. Dapat memproses data tak-terstruktur
d. Dapat memproses workload Machine Learning
8. Berikut ini adalah pernyataan yang salah tentang skalabilitas Hadoop:

a. Scale-Out
b. Scale Horizontally
c. Scale-In
d. Scale Vertically
9. Industri apa yang tidak disebutkan dalam contoh use case analytics:
a. Pertambangan
b. Kesehatan
c. Perbankan
d. Penerbangan
10. Level Analytics yang paling tidak membutuhkan input dari manusia:
a. Preskriptif
b. Diagnostik
c. Prediktif
d. Deskriptif
11. Mengapa Big Data dianggap penting dalam dunia digital saat ini:
a. Memungkinkan data-driven decision making dan menyediakan valuable
insight
b. Membuat organisasi dapat men-generate data dengan cepat
c. Sebagai solusi yang bisa memecahkan semua masalah terkait data
d. Hanya berlaku untuk perusahaan besar
12. Model Pemrograman apa yang terasosiasi dengan Big Data/Hadoop untuk
memproses data besar secara paralel:
a. Python
b. SQL
c. MapReduce
d. Java
13. Role Data Scientist mulai muncul pada level perusahaan analytics:
a. 2.0
b. 3.0
c. 4.0
d. 1.0
14. Salah satu alasan kenapa big data dibutuhkan adalah terkait tantangan untuk
menjaga konsistensi dan akurasi. Ini merupakan:
a. Veracity
b. Voluntary
c. Value
d. Variety
15. Salah satu keuntungan Hadoop adalah fault tolerance. Maksudnya adalah:
a. Mengurangi waktu pemrosesan data
b. Data tidak hilang saat diproses
c. Tidak Membutuhkan Backup Data
d. Memungkinkan task yang gagal untuk dijalankan kembali di node yang lain
16. Salah satu keuntungan Hadoop adalah Scale horizontally. Maksudnya adalah:
a. Dapat memproses data secara horizontal
b. Dapat Menambahkan Ram lebih banyak
c. Dapat menambahkan CPU di tiap Node
d. Dapat menambahkan server baru sebagai Node tambahan
17. Teknologi Big Data yang terkenal dengan high-speed data processing dan kapabilitas
data analyticsnya:
a. MongoDB
b. Hadoop
c. HDFS
d. Spark
18. Teknologi di Big Data/Hadoop yang dapat digunakan sebagai data warehouse dan
query berbasis SQL:
a. Pig
b. MapReduce
c. Hive
d. YARN
19. Teknologi yang digunakan sebagai storage system di Big Data:

a. HDFS
b. Hadoop
c. MongoDB
d. Spark
20. Yang bukan merupakan Teknologi/Service essential di Big Data/Hadoop:

a. HDFS
b. MapReduce
c. ZooKeeper
d. MongoDB
minggu 3
1. Jenis kelamin, merupakan salah satu atribut data type…
nominal
2. Seberapa mudah data dapat dipahami merupakan kualitas data dari..

Interpretability
3. Grade Nilai, ukuran kualitas merupakan contoh atribut bertipe:

ordinal
4. Normalisasi data dilakukan pada tahap data preprocessing ..

data transformation (and data discretization)
5. Imputasi termasuk salah satu aktifitas dari

data cleaning
6. Cara menangani noisy data, kecuali

ignore
7. Tinggi badan, berat badan, usia, merupakan contoh atribut bertipe:

numerik
8. Karakteristik data objek merupakan representasi dari

atribut
9. Berikut adalah nama lain dari data objek, kecuali

atribut
10. Bagaimana menangani missing value dengan tepat?

a. Imputasi nilai manual
b. Dibiarkan
c. Eliminasi data object
d. A,B,dan C benar
11. Data Cleaning merupakan tahapan untuk membersihkan data kotor sehingga
menjadi dataset yang siap diolah. Data kotor tersebut berupa
a. A,B,C benar
b. missing value
c. outlier
d. duplicate data
12. data cleaning pada data preprocessing dilakukan..

Imputasi, smoothing dan identifikasi
13. Data-data yang menunjukkan tautan yang saling menghubungkan halaman-halaman

web, yang biasanya ditemukan pada jaringan internet termasuk dalam jenis data
graf
14. Imputasi nilai secara otomatis saat menangani incomplete data tidak dapat dilakukan
menggunakan
a. Rata-rata
b. Median
c. interpolasi
d. Nilai tertinggi
15. penanganan missing value dapat dilakukan menggunakan nilai estimasi dari
probabilitas bersyarat menggunakan metode
bayessian
16. Data berupa video dan suara (audio) termasuk jenis data
record
17. Nilai yang merepresentasikan urutan seperti nilai mata kuliah termasuk dalam atribut
data type..
ordinal
18. Statistik dasar untuk mengukur sebaran data salah satunya adalah
variance
19. Salah satu jenis data record yang diekstrak menjadi kumpulan term dan ditulis
berdasarkan frekuensi kemunculan data, termasuk pada jenis data
dokumen
20. Nama pelanggan, jenis barang, nama barang, merupakan contoh dari atribut bertipe:
nominal
minggu 4
1. CRISP-DM (Cross Industry Standard Process for Data Mining)
a. Data Understanding - Data Preparation - Modelling - Bussiness Understanding -
Evaluation - Deployment
b. Data Preparation - Data Understanding - Modelling - Bussiness Understanding -
c. Data Preparation - Modelling - Bussiness Understanding - Data Understanding -
d. Bussiness Understanding - Data Understanding - Data Preparation -
Modelling - Evaluation - Deployment
2. Definisi Data mining adalah

a. teknik untuk menganalisa sekumpulan data yang besar guna menemukan
hubungan yang tidak diduga dan berguna bagi pemilik data
b. semuanya benar
c. proses untuk menemukan pola dan hubungan dalam suatu data
d. pencarian dan teknik analisa data yang besar untuk menemukan pola dan aturan
yang berarti
3. Definisi Data mining yang kurang sesuai adalah

a. pencarian dan teknik analisa data yang besar untuk menemukan pola dan aturan
yang berarti
b. proses pengumpulan data ke suatu penyimpanan basis data
c. teknik untuk menganalisa sekumpulan data yang besar guna menemukan
hubungan yang tidak diduga dan berguna bagi pemilik data
d. proses untuk menemukan pola dan hubungan dalam suatu data
4. Evolusi dari teknologi basis data pada era 1960an adalah

a. Application-oriented DBMS (spatial, scientific, engineering, etc.)
b. RDBMS, advanced data models (extended-relational, OO, deductive, etc.)
c. Stream data management and mining, Data mining and its applications, Web
technology (XML, data integration) and global information systems
d. Data collection, database creation, IMS and network DBMS
5. Evolusi dari teknologi basis data pada era 2000an adalah

Select one:
a. RDBMS, advanced data models (extended-relational, OO, deductive, etc.)
b. Stream data management and mining, Data mining and its applications, Web
technology (XML, data integration) and global information systems
c. Application-oriented DBMS (spatial, scientific, engineering, etc.)
d. Data collection, database creation, IMS and network DBMS
6. Evolusi dari teknologi basis data pada era 2000an adalah, kecuali
a. Data mining and its applications, Web technology (XML, data integration)
b. Global information systems
c. Data collection, database creation, IMS and network DBMS
d. Stream data management and mining
7. Membentuk klaster / kelompok dan Karakteristik dataset: Atributnya numerik, Atribut

kategorikal diubah menjadi numerik dan Tidak ada label misalnya kelompok jenis
pelanggan
a. Prediksi / Forecasting
b. Klusterisasi
c. Klasifikasi
d. Estimasi
8. Mencari hubungan antara atribut-atributnya, Karakteristik dataset: Atributnya numerik

atau kategorikal dan Label tidak selalu menjadi perhatian misalnya Korelasi antara
jumlah konsumsi minyak pemanas dengan faktor-faktor Ketebalan insulasi rumah
dan Suhu udara sekitar rumah
b. Klasifikasi
c. Asosiasi
d. Klusterisasi
9. Mengkategorikan / mengelompokkan dan Karakteristik Atribut datasetnya dapat

berupa numerik atau kategorikal dan dengan memiliki Label
b. Klasifikasi
c. Estimasi
d. Klusterisasi
10. pekerjaan data mining yang memperkirakan sebuah nilai dalam rentet waktu (Time
Series)
b. Estimasi
c. Klasifikasi
d. Deskriptif Exploratory Data Analysis
11. pekerjaan data mining yang memperkirakan waktu pengiriman pizza

b. Deskriptif Exploratory Data Analysis
c. Estimasi
d. Klasifikasi
12. Proses dari data mining mencakup
a. Ekstraksi pola atau pengetahuan yang menarik (tidak sepele, implisit, sebelumnya
tidak diketahui, dan berpotensi berguna) dari sejumlah besar data
b. Melakukan ekstraksi untuk mendapatkan informasi penting yang sifatnya implisit
dan sebelumnya tidak diketahui, dari suatu data
c. Semuanya benar
d. Melakukan pengumpulan, pemakaian data historis untuk menemukan keteraturan,
pola dan hubungan dalam set data berukuran besar
13. Tools Open source component based software dalam Java yang sering digunakan
untuk "Predictive Analysis" dan menawarkan integrated environments untuk machine
learning , deep learning dan teks mining
a. Mahout
b. Microstrategy
c. Orange
d. RapidMiner
14. Urutan Computing Community Consortium (CCC) meliputi

a. Acquisition / Recording - Extraction / Cleaning/ Annotation - Analysis / Modeling -
Integration / Aggregation / Representation - Interpretation
b. Acquisition / Recording - Extraction / Cleaning/ Annotation - Integration /
Aggregation / Representation - Analysis / Modeling - Interpretation
c. Acquisition / Recording - Extraction / Cleaning/ Annotation - Analysis / MOdeling
-Integration / Aggregation / Representation - Interpretation
d. Acquisition / Recording - Extraction / Cleaning/ Annotation - Integration /
Aggregation / Representation - Analysis / MOdeling - Interpretation
15. Urutan Proses KDD (Knowledge Discovery in Database Process)

a. Selection - Preprosesing - Transformation - Data Mining -
Interpretation/Evaluation
b. Preprosesing - Data Mining - Selection - Transformation - Interpretation/Evaluation
c. Preprosesing - Transformation - Data Mining - Selection - Interpretation/Evaluation
d. Preprosesing - Selection - Transformation - Data Mining - Interpretation/Evaluation
16. Yang termasuk Smart Application

a. Sistem Pencatatan Transaksi
b. Sistem Rekomendasi Pelanggan
c. Sistem Pencatatan Kredit
d. Sistem Informasi Akademik

a. Sistem Penentuan Kelayakan Kredit
b. Semuanya benar
c. Sistem Rekomendasi Pelanggan
d. Sistem Prediksi Kelulusan Mahasiswa

a. Sistem Pencatatan Transaksi
b. Sistem Pencatatan Kredit
c. Sistem Informasi Akademik
d. Sistem Prediksi Kelulusan Mahasiswa
19. Yang tidak termasuk Smart Application

a. Sistem Informasi Akademik
b. Sistem Pencatatan Kredit
c. Semuanya benar
d. Sistem Pencatatan Transaksi
20. Yang tidak termasuk Smart Application

a. Sistem Rekomendasi Pelanggan
b. Sistem Prediksi Kelulusan Mahasiswa
c. Sistem Informasi Akademik
d. Sistem Penentuan Kelayakan Kredit
minggu 5
1. Sebuah proses yg mempersiapkan data sehingga data tsb bisa kita extract cirinya
menjadi suatu vektor
feature extraction
2. Tujuan pembelajaran unsupervised adalah membangun model yang dapat

menemukan komponen / variabel / fitur tersembunyi pada data pelatihan, yang dapat
digunakan untuk hal berikut, kecuali
a. Pengelompokan (clustering)
b. Rekomendasi
c. Reduksi dimensi (dimension reduction)
d. Pengklasifikasian (classification)
3. Yang tidak digunakan pada Model Supervised Learning

a. Naive Bayes
b. KMeans
c. Support Vector Machine
d. Neural Networks
4. Saat Anda ingin mengungkap pengelompokan yang melekat dalam data, seperti
mengelompokkan hewan berdasarkan beberapa karakteristik / fitur, mis. jumlah kaki
maka model pembelajaran yang sesuai
unsupervised learning (clustering)
5. Aplikasi aplikasi yang memanfaatkan machine learning, kecuali

a. Sistem Rekomendasi Musik di Youtube
b. Facebook menampilkan post-post dari teman-teman Facebook terdekat, atau post
dengan topik yang sedang kita minati
c. Facebook dan IG ads: iklan produk yang sesuai atau terkait dengan histori
pencarian kita
d. Sistem pencatatan transaksi kredit
6. Aplikasi yang memanfaatkan machine learning, kecuali

a. Netflix memiliki fitur rekomendasi film yang mirip dengan tontonan sebelumnya
b. Spam Detection
c. Facebook dan IG ads: iklan produk yang sesuai atau terkait dengan histori
pencarian kita
d. Sistem pencatatan nilai mahasiswa pada Universitas
7. Algoritma machine learning yang mendevelop predictive model berdasar input dan
output data, kecuali
a. SVM
b. Linear Regression
c. Naive Bayes
d. KMeans
8. Jika variabel keluaran adalah berupa kategori misalnya “apel”, “jeruk” termasuk pada
machine learning bertipe
supervised - classification
9. Pembelajaran yang bertujuan memprediksi output dengan akurat untuk data baru
dan output ti bernilai kontinu (riil), contoh untuk Prediksi kinerja CPU
regresi
10. Contoh implementasi supervised learning, kecuali

a. Handwriting Digit Recognition
b. Spam Email Classification
c. Regresi Untuk Prediksi Harga Rumah
d. Klusterisasi penduduk berdasar pekerjaan
11. Kumpulan data yg sudah dipastikan kebenarannya, dr sisi label, data awal,
komponen2 data yg akan dijadikan kunci
training set
12. Tahapan yang tepat ketika melakukan testing

Image Features - Training With Labeled Data - Learned Model
13. Model Pembelajaran yang mempelajari bagaimana sistem dapat menyimpulkan
suatu fungsi untuk mendeskripsikan struktur tersembunyi dari data yang tidak
berlabel. Sistem ini tidak memprediksi keluaran yang benar, tetapi mengeksplorasi
data dan dapat menarik kesimpulan dari kumpulan data untuk mendeskripsikan
struktur tersembunyi dari data yang tidak berlabel.
unsupervised learning
14. Ciri2 dr masing2 sample data misalnya Smartphone: ciri:memiliki layar, kamera,
tombol dll
feature / atribut
15. Yang bukan tujuan supervised learning untuk membangun model yang dapat
menghasilkan output yang benar untuk suatu data input dapat digunakan untuk
a. Regresi (regression)
b. Klasterisasi (clustering)
c. Pengklasifikasian (classification)
d. Ranking
16. Model ini belajar dari kumpulan data berlabel dan kemudian digunakan untuk
memprediksi peristiwa di masa depan.
supervised learning
17. sama kaya 12
18. Model pembelajaran yang menggunakan data berlabel dan tidak berlabel untuk
pelatihan.
semi supervised learning
19. Pembelajaran yang menghasilkan Nilai output bernilai diskrit (kelas)

klasifikasi
20. Aplikasi yang mendeteksi spam atau bukan ada pada ranah
klasifikasi
minggu 6
1. Algoritma yang paling banyak digunakan untuk task Association rules
a. Eclat
b. Apriori
c. FP-Growth
d. Apriori
2. Algoritma yang berusaha menemukan pola tersembunyi atau pengelompokan data

tanpa perlu campur tangan manusia.
3. Algoritme yang bukan digunakan untuk pengelompokan (Clustering)

a. Auto Encoder
b. Clustering ekslusif (specifically exclusive)
c. Hierarkis ( hierarchical)
d. Tumpang tindih (overlapping)
4. Algoritme yang menggunakan pohon hash untuk menghitung kumpulan item,

menavigasi kumpulan data dengan cara yang pertama. Algoritma ini telah
dipopulerkan melalui analisis keranjang pasar, yang mengarah ke mesin
rekomendasi yang berbeda untuk platform musik dan pengecer online.Misalnya, jika
saya memutar radio Black Sabbath di Spotify, dimulai dengan lagu mereka
"Anggrek", salah satu lagu lain di saluran ini kemungkinan besar adalah lagu Led
Zeppelin, seperti "Over the Hills dan Far Away." Ini didasarkan pada kebiasaan
mendengarkan saya sebelumnya serta kebiasaan orang lain. Ini termasuk task
association
5. Algoritme yang menggunakan pohon hash untuk menghitung kumpulan item,

menavigasi kumpulan data dengan cara yang pertama. Algoritma ini telah
dipopulerkan melalui analisis keranjang pasar, yang mengarah ke mesin
rekomendasi yang berbeda untuk platform musik dan pengecer online.Misalnya, jika
saya memutar radio Black Sabbath di Spotify, dimulai dengan lagu mereka
"Anggrek", salah satu lagu lain di saluran ini kemungkinan besar adalah lagu Led
Zeppelin, seperti "Over the Hills dan Far Away." Ini didasarkan pada kebiasaan
mendengarkan saya sebelumnya serta kebiasaan orang lain.
apriori
6. Jenis algoritme pengurangan dimensi yang digunakan untuk mengurangi redundansi

dan mengompresi kumpulan data melalui ekstraksi fitur. Metode ini menggunakan
transformasi linier untuk membuat representasi data baru, menghasilkan sekumpulan
"komponen utama". Komponen utama pertama adalah arah yang memaksimalkan
varians dari dataset. Sementara komponen utama kedua juga menemukan varians
maksimum dalam data, itu sama sekali tidak berkorelasi dengan komponen utama
pertama, menghasilkan arah yang tegak lurus, atau ortogonal, ke komponen
pertama. Proses ini berulang berdasarkan jumlah dimensi, dimana komponen utama
berikutnya adalah arah ortogonal ke komponen sebelumnya dengan varians
terbanyak.
principal component analysis
7. Kemampuannya untuk menemukan persamaan dan perbedaan informasi

menjadikannya unsupervised learning sebagai solusi ideal tugas tugas di bawah ini,
kecuali
a. Analisis data eksplorasi
b. Segmentasi pelanggan
c. Klasifikasi buah jeruk dan buah apel
d. strategi penjualan silang
8. Metode berbasis aturan untuk menemukan hubungan antara variabel dalam

kumpulan data tertentu. Metode ini sering digunakan untuk analisis keranjang pasar,
memungkinkan perusahaan untuk lebih memahami hubungan antara produk yang
berbeda. Memahami kebiasaan konsumsi pelanggan memungkinkan bisnis untuk
mengembangkan strategi penjualan silang dan mesin rekomendasi yang lebih baik.
association
9. Pembelajaran mesin tanpa pengawasan, menggunakan algoritme pembelajaran

mesin untuk menganalisis dan mengelompokkan set data tak berlabel
10. Pendekatan reduksi dimensi lain yang memfaktorkan matriks, A, menjadi tiga matriks
peringkat rendah. SVD dilambangkan dengan rumus, A = USVT, di mana U dan V
adalah matriks ortogonal. S adalah matriks diagonal, dan nilai S dianggap sebagai
nilai tunggal matriks A. Principal component analysis
singular value decomposition
11. Pendekatan Unsupervised Learning adalah…

Mempelajari bagaimana cara kerja pembelajaran tanpa pengawasan
12. Pengelompokan yang mengambil pendekatan "top-down". Dalam hal ini, satu cluster
data dibagi berdasarkan perbedaan antara titik data. Pengelompokan dengan cara
ini tidak umum digunakan, tetapi masih perlu diperhatikan dalam konteks
pengelompokan hierarkis. Proses pengelompokan ini biasanya divisualisasikan
menggunakan dendrogram, diagram mirip pohon yang mendokumentasikan
penggabungan atau pemisahan titik data pada setiap iterasi.
pendekatan divisive
13. Pengelompokan yang sebagai "pendekatan bottom-up". Di mana titik datanya

diisolasi sebagai pengelompokan terpisah pada awalnya, dan kemudian
digabungkan bersama secara iteratif atas dasar kesamaan hingga satu cluster
tercapai.
pendekatan aglomeratif
14. Salah satu bentuk pengelompokan yang memungkinkan titik data menjadi bagian
dari beberapa kluster dengan derajat keanggotaan terpisah. Ini disebut juga
Pengelompokan "lembut" atau fuzzy k-means
tumpang tindih (overlapping)
15. Salah satu bentuk pengelompokan yang menetapkan bahwa suatu titik data hanya
dapat ada dalam satu cluster. Ini juga bisa disebut sebagai pengelompokan "keras".
Algoritma yang digunakan salah satunya adalah K-means clustering
Clustering Eksklusif (specifically exclusive)
16. Teknik tanpa pengawasan yang membantu menyelesaikan estimasi kepadatan atau
masalah pengelompokan "lunak". Dalam hal ini, titik data dikelompokkan
berdasarkan kemungkinannya termasuk dalam distribusi tertentu. Teknik yang paling
umum digunakan adalah Gaussian Mixture Model (GMM)
pendekatan probabilistik
17. Teknik yang digunakan ketika jumlah fitur, atau dimensi, dalam kumpulan data
tertentu terlalu tinggi. Teknik ini mengurangi jumlah input data ke ukuran yang dapat
dikelola sambil juga menjaga integritas set data sebanyak mungkin, biasanya
digunakan dalam tahap data praproses
dimensionality reduction
18. Teknik yang memanfaatkan jaringan neural untuk mengompresi data dan kemudian
membuat ulang representasi baru dari input data asli. Terdapat lapisan tersembunyi
secara khusus bertindak sebagai penghambat untuk memampatkan lapisan
masukan sebelum merekonstruksi di dalam lapisan keluaran.
autoencoders
19. Teknik yang mengelompokkan data yang tidak berlabel berdasarkan persamaan atau
perbedaannya. Algoritma ini digunakan untuk memproses objek data mentah dan
tidak terklasifikasi menjadi grup yang diwakili oleh struktur atau pola dalam informasi.
clustering
20. Yang bukan tugas dari pembelajaran tanpa pengawasan

a. Dimensionality reduction
b. Association
c. clustering
d. Regression
minggu 7
1. Berikut ini merupakan beberapa algoritma reinforcement learning, kecuali:
a. Q-learning
b. State-Action-Reward-State-Action (SARSA)
c. Hill-Climbing Bagged Ensemble Selection (HCES-Bag)
d. Deep Deterministic Policy Gradient (DDPG)
2. Berikut ini merupakan contoh permasalahan yang dapat diselesaikan dengan

reinforcement learning:
a. Bermain Game
b. Self-driving car
c. Semua benar
d. Sistem percakapan
3. Berikut ini merupakan pernyataan yang kurang tepat terkait reinforcement learning
(RL):
a. RL dapat digunakan dalam menciptakan sistem pelatihan untuk siswa yang
bersifat kustom
b. RL memerlukan lingkungan untuk berinteraksi secara repetitif
c. RL dapat digunakan pada robotik untuk otomasi industri
d. RL yang diselesaikan dengan Markov Decision Process memerlukan data
latih dalam menentukan probabilitas transisinya
4. Berikut ini merupakan pernyataan yang salah terkait Markov Decision Process:
a. Elemen matriks probabilitas transisi bernilai antara 0 dan 1
b. Fungsi nilai state-action dapat dinyatakan dalam persamaan ekspektasi Bellman
c. Total policy pada suatu state untuk semua reward adalah 1
d. Fungsi reward dapat dinyatakan sebagai suatu fungsi ekspektasi
5. Dalam memilih aksi pada suatu state perlu diperhatikan hal-hal berikut ini:
a. Nilai state-action pada suatu waktu berlaku untuk sembarang policy
b. Memaksimumkan reward pada masa mendatang
c. Memilih aksi yang memberikan state dengan nilai tertinggi
d. Semua benar
6. Efek dari suatu aksi yang dipilih dari suatu state yang bergantung hanya pada state
tersebut saja bukan pada state-state sebelumnya dikenal sebagai sifat:
Markov
7. Efek dari suatu pilihan aksi pada suatu state ditentukan oleh:
Model transisi
8. Fungsi reward dalam Markov Decision Process dapat bernilai bilangan:

a. Riil
b. Bulat
c. Semua benar
d. Asli
9. Markov Decision Process dapat didefinisikan kedalam n-tuple, dimana bernilai:

5
10. Pada Markov Decision Process, pemilihan ruas jalan dalam permasalahan shortest
path merupakan bagian dari:
Action
11. Pemilihan suatu aksi pada suatu state tertentu didalam Markov Decision Process
ditentukan oleh:
Policy
12. Pernyataan yang benar terkait reinforcement learning:

a. Aksi yang dapat dipilih pada setiap state tidak unik
b. Untuk aksi yang bersifat stokastik harus memenuhi sifat Markov
c. Semua benar
d. Input yang diterima oleh agen berupa state, action dan reward
13. Reinforcement learning dapat diilustrasikan sebagai interaksi antara:

Agen dengan lingkungannya
14. Reinforcement learning dapat diterapkan dalam permasalahan:

a. Navigasi robot
b. Penentuan jalur terpendek
c. Supervised learning
d. Semua benar
15. Reinforcement learning merupakan bagian dari:
Machine learning
16. Reinforcement learning tepat digunakan untuk menyelesaikan permasalahan utama

dalam:
Permainan catur
17. Reward dalam permasalahan shortest path yang dimodelkan dengan Markov
Decision Process ditandai dengan:
Nilai bobot pada ruas
18. Sekumpulan token yang mewakili setiap kemungkinan keadaan dari agen disebut
sebagai:
State
19. Sifat Markov dalam Markov Decision Process diperlukan langsung dalam
menentukan:
Matriks probabilitas transisi
20. Solusi dari Markov Decision Process disebut sebagai:

Policy
minggu 8
1. Jenis arsitektur jaringan saraf yang mempertahankan informasi melalui loop dan
digunakan untuk tugas yang melibatkan urutan data, seperti teks atau waktunya
dinamakan Recurrent Neural Network (RNN)
tidak terklasifikasi menjadi grup yang diwakili oleh struktur atau pola dalam informasi
Clustering
3. Keadaan di mana model terlalu diperinci untuk data pelatihan dan kinerjanya buruk
pada data yang tidak terlihat sebelumnya dinamakan Overfitting
4. Yang merupakan framework untuk Machine Learning: Apache Spark MLlib
5. Lapisan di antara lapisan input dan lapisan output yang melakukan pemrosesan dan
ekstraksi fitur dinamakan Hidden Layer
6. Visualisasi dari hasil analisis Big Data dapat berupa: Semua benar

tanpa perlu campur tangan manusia. Unsupervised Learning
8. Keadaan di mana model terlalu sederhana dan tidak dapat menangkap kompleksitas
dari data pelatihan atau tidak dapat umum ke data yang belum terlihat. Underfitting
9. Parameter yang diatur sebelum pelatihan model dimulai dan tidak diubah selama
pelatihan. Contohnya termasuk tingkat pembelajaran dan jumlah epoch.
Hyperparameter
10. Dalam arsitektur Big Data, solusi berupa rekomendasi, berada pada posisi sebagai:
End Result
11. Dataset dibentuk dari: Sekumpulan objek yang memiliki fitur yang sama
12. Algoritma optimisasi yang digunakan untuk meminimalkan fungsi kerugian dengan
mengadjust parameter model dinamakan Gradient Descent
13. Perbedaan Deep Learning dengan machine learning konvensional, kecuali Jumlah
data
14. Sumber data yang digunakan dalam aplikasi Big Data dapat berupa: Semua benar
15. Cabang dari kecerdasan buatan (AI) yang berfokus pada interaksi antara komputer
dan bahasa manusia yang memungkinkan komputer untuk memahami,
menginterpretasi, dan berinteraksi dengan bahasa manusia dalam cara yang
bermakna adalah Natural Language Processing (NLP)
16. Jenis arsitektur jaringan saraf yang khusus dirancang untuk tugas pengolahan citra
dinamakan Convolutional Neural Network (CNN)
17. Teknik regularisasi yang melibatkan menghapus secara acak beberapa node atau
koneksi dalam jaringan selama pelatihan untuk mencegah overfitting. Dropout
18. Unit dasar dalam jaringan saraf yang menerima input, melakukan operasi
matematika, dan menghasilkan output dinamakan Node
19. Natural Language Processing dapat membantu menganalisis teks yang memiliki
struktur, kecuali Gambar
20. Berikut ini adalah kekurangan pada deep learning, kecuali Interpretasi
minggu 9
1. Keadaan di mana model terlalu diperinci untuk data pelatihan dan kinerjanya buruk
pada data yang tidak terlihat sebelumnya dinamakan
a. Hyperparameter
b. Dropout
c. Overfitting
d. Underfitting
2. Yang bukan tujuan supervised learning untuk membangun model yang dapat
menghasilkan output yang benar untuk suatu data input dapat digunakan untuk
a. Regresi (regression)
b. Klasterisasi (clustering)
c. Ranking
3. Model Pembelajaran yang mempelajari bagaimana sistem dapat menyimpulkan

suatu fungsi untuk mendeskripsikan struktur tersembunyi dari data yang tidak
berlabel. Sistem ini tidak memprediksi keluaran yang benar, tetapi mengeksplorasi
data dan dapat menarik kesimpulan dari kumpulan data untuk mendeskripsikan
struktur tersembunyi dari data yang tidak berlabel.
a. Unsupervised Learning
b. Reinforcement Learning
c. Supervised Learning
d. Semi Supervised Learning
4. Dataset dibentuk dari:

a. Sekumpulan fitur yang memiliki nilai yang sama
b. Sekumpulan fitur yang memiliki objek yang sama
c. Sekumpulan objek yang memiliki fitur yang sama
d. Semua salah
5. Lapisan di antara lapisan input dan lapisan output yang melakukan pemrosesan dan
ekstraksi fitur dinamakan
a. Output Layer
b. Hidden Layer
c. Convolution Layer
d. Input Layer
6. Reinforcement learning dapat diterapkan dalam permasalahan:

a. Navigasi robot
b. Semua benar
c. Penentuan jalur terpendek
d. Supervised learning
7. Reinforcement learning tepat digunakan untuk menyelesaikan permasalahan utama

dalam:
a. Permainan catur
b. Peramalan cuaca
c. Segmentasi pelanggan
d. Pengenalan objek
8. Visualisasi dari hasil analisis Big Data dapat berupa:

a. Grafik 3D
b. Tabel
c. Semua benar
d. Plot
9. Contoh implementasi supervised learning, kecuali

a. Spam Email Classification
b. Handwriting Digit Recognition
c. Regresi Untuk Prediksi Harga Rumah
d. Klusterisasi penduduk berdasar pekerjaan
10. Teknik regularisasi yang melibatkan menghapus secara acak beberapa node atau
koneksi dalam jaringan selama pelatihan untuk mencegah overfitting
a. Underfitting
b. Dropout
c. Hyperparameter
d. Overfitting
11. Model ini belajar dari kumpulan data berlabel dan kemudian digunakan untuk
memprediksi peristiwa di masa depan.
a. Reinforcement Learning
b. Supervised Learning
c. Semi Supervised Learning
d. Unsupervised Learning
tanpa perlu campur tangan manusia.
a. Semi Supervised Learning
b. Supervised Learning
c. Deep Learning
d. Unsupervised Learning
13. Natural Language Processing dapat membantu menganalisis teks yang memiliki
struktur, kecuali
a. Dokumen
b. Artikel
c. Berita
d. Gambar
14. Cabang dari kecerdasan buatan (AI) yang berfokus pada interaksi antara komputer
dan bahasa manusia yang memungkinkan komputer untuk memahami,
menginterpretasi, dan berinteraksi dengan bahasa manusia dalam cara yang
bermakna adalah
a. Generative Adversarial Network (GAN):
b. Long Short Term Memory Network (LSTM)
c. Recurrent Neural Network (RNN)
d. Natural Language Processing (NLP)
15. Jenis arsitektur jaringan saraf yang mempertahankan informasi melalui loop dan
digunakan untuk tugas yang melibatkan urutan data, seperti teks atau waktunya
dinamakan
a. Long Short Term Memory Network (LSTM)
b. Recurrent Neural Network (RNN)
c. Generative Adversarial Network (GAN):
d. Convolutional Neural Network (CNN)
16. Parameter yang diatur sebelum pelatihan model dimulai dan tidak diubah selama
pelatihan. Contohnya termasuk tingkat pembelajaran dan jumlah epoch.
a. Overfitting
b. Underfitting
c. Hyperparameter
d. Dropout
17. Tujuan pembelajaran unsupervised adalah membangun model yang dapat

menemukan komponen / variabel / fitur tersembunyi pada data pelatihan, yang dapat
digunakan untuk hal berikut, kecuali
a. Pengelompokan (clustering)
b. Reduksi dimensi (dimension reduction)
c. Rekomendasi
18. Dalam arsitektur Big Data, solusi berupa rekomendasi, berada pada posisi sebagai:
a. Data Format
b. Data Computing & Analysis
c. End Result
d. Data Storage Layer
tidak terklasifikasi menjadi grup yang diwakili oleh struktur atau pola dalam informasi.
a. Association
b. Clustering
c. Regression
d. Dimensionality reduction
20. Jenis arsitektur jaringan saraf yang khusus dirancang untuk tugas pengolahan citra
dinamakan
a. Generative Adversarial Network (GAN):
b. Convolutional Neural Network (CNN)
c. Long Short Term Memory Network (LSTM)
d. Recurrent Neural Network (RNN)
minggu 10
1. Spark module untuk melakukan segala proses machine learning:
a. Spark GraphX
b. Spark SQL
c. Spark Streaming
d. Spark MLib
2. Bahasa pemrograman yang didukung oleh Spark:

a. Scala
b. Java
c. Python
d. R
e. Semua benar
3. Manakah pernyataan yang tepat untuk menggambarkan Resilient Distributed Data

(RDD) pada Spark:
a. Didistribusikan dalam sebagai Row Object
b. Semua benar
c. Dalam spark didistribusikan sebagai row object, dibungkus dan disimpan sebagai
JVM object
d. Didistribusikan dalam JVM sebagai JVM Object
4. Spark module untuk melakukan manipulasi data dengan perintah SQL:

a. Spark GraphX
b. Spark MLib
c. Spark SQL
d. Spark Streaming
5. Di antara keunggulan Spark dibanding MapReduce adalah penggunaan:

a. Lazy Evaluation
b. Catalyst Optimizer
c. Semua benar
d. Directed Acyclic Graph (DAG) Optimization
6. Spark MLib dapat dijelaskan dengan pernyataan berikut ini, kecuali:

a. Terdapat dua packages: spark.mllib dan spark.ml
b. Spark.mllib berbasis RDD API (sudah dalam maintenance mode pada Spark 2.0),
spark.ml berbasis DataFrame.
c. Dapat diakses menggunakan Tableau
d. Tidak perlu membuat subset dari dataset agar masuk ke dalam satu node.
7. Yang termasuk teknik Catalyst, kecuali:

a. Analyst
b. Code Generation
c. Logical Optimization
d. Shuffles
8. Proses learning (fit) dan menghasilkan model, adalah pernyataan yang menjelaskan
tentang:
a. Estimator
b. Pipeline
c. Semua benar
d. Transformer
9. Pengorganisasian transformer dan estimator menjadi suatu runtunan proses, adalah

pernyataan yang menjelaskan tentang:
a. Pipeline
b. Transformer
c. Estimator
d. Semua benar
10. Spark memiliki kecepatan proses yang lebih baik dari MapReduce karena
menggunakan konsep:
a. On Disk storage devices
b. Semua salah
c. HDFS
d. In-Memory storage devices
11. Pada tahun 2002 Google mulai mempublikasikan:

a. Google File System
b. Spark
c. MapReduce
d. Hadoop
12. Menerima DF sebagai input, menjalankan rule-base transformation, adalah

pernyataan yang menjelaskan tentang:
a. Transformer
b. Semua benar
c. Pipeline
d. Estimator
13. Berikut ini adalah module yang disediakan oleh Spark, kecuali:
a. Spark MLib
b. HDFS
c. Spark SQL
d. Spark Streaming
14. MapReduce mulai diperkenalkan oleh Google pada tahun:

a. 2006
b. 2004
c. 2013
d. 2002
15. Proyek Spark di Apache Software Foundation mulai diperkenalkan pada tahun:
a. 2006
b. 2013
c. 2002
d. 2004
16. Manakah pernyataan yang tepat untuk menggambarkan DataFrame (DF) pada
Spark:
a. Semua benar
b. Didistribusikan dalam JVM sebagai JVM Object
c. Didistribusikan dalam sebagai Row Object
d. Dalam spark didistribusikan sebagai row object, dibungkus dan disimpan sebagai
JVM object
17. Yang termasuk teknik Tungsten, kecuali:

a. Shuffles
b. Analyst
c. UnsafeRow
d. Pipelining
18. Ease of Use dari Spark ditunjukkan dengan:

a. Dukungan terhadap berbagai bahasa pemrograman
b. Semua salah
c. Berfokus pada komputasi dan dapat bekerja dengan berbagai storage
d. Dapat memilih untuk menggunakan library yang dibutuhkan saja
19. Spark dapat bekerja dengan berbagai jenis data:

a. JSON
b. CSV
c. Semua benar
d. Hadoop
20. Manakah pernyataan yang tepat untuk menggambarkan Dataset pada Spark:
a. Didistribusikan dalam JVM sebagai JVM Object
b. Dalam spark didistribusikan sebagai row object, dibungkus dan disimpan
sebagai JVM object
c. Didistribusikan dalam sebagai Row Object
d. Semua benar

Makabnasdjsad

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Makabnasdjsad

Diunggah oleh

Hak Cipta:

Format Tersedia

minggu 1 dan 2

1. Apa keuntungan utama menggunakan NoSQL:

2. Apa peran Machine Learning dalam Big Data:

3. Apa peran NameNode di dalam cluster Big Data/Hadoop:

4. Apa yang tidak termasuk ciri perusahaan 1.0:

5. Apa yang tidak termasuk definisi big data:

6. Berikut adalah contoh data tak-terstruktur:

7. Berikut ini adalah pernyataan yang benar tentang Hadoop:

8. Berikut ini adalah pernyataan yang salah tentang skalabilitas Hadoop:

19. Teknologi yang digunakan sebagai storage system di Big Data:

20. Yang bukan merupakan Teknologi/Service essential di Big Data/Hadoop:

2. Seberapa mudah data dapat dipahami merupakan kualitas data dari..

3. Grade Nilai, ukuran kualitas merupakan contoh atribut bertipe:

4. Normalisasi data dilakukan pada tahap data preprocessing ..

5. Imputasi termasuk salah satu aktifitas dari

6. Cara menangani noisy data, kecuali

7. Tinggi badan, berat badan, usia, merupakan contoh atribut bertipe:

8. Karakteristik data objek merupakan representasi dari

9. Berikut adalah nama lain dari data objek, kecuali

10. Bagaimana menangani missing value dengan tepat?

12. data cleaning pada data preprocessing dilakukan..

13. Data-data yang menunjukkan tautan yang saling menghubungkan halaman-halaman

2. Definisi Data mining adalah

3. Definisi Data mining yang kurang sesuai adalah

4. Evolusi dari teknologi basis data pada era 1960an adalah

5. Evolusi dari teknologi basis data pada era 2000an adalah

7. Membentuk klaster / kelompok dan Karakteristik dataset: Atributnya numerik, Atribut

8. Mencari hubungan antara atribut-atributnya, Karakteristik dataset: Atributnya numerik

9. Mengkategorikan / mengelompokkan dan Karakteristik Atribut datasetnya dapat

11. pekerjaan data mining yang memperkirakan waktu pengiriman pizza

14. Urutan Computing Community Consortium (CCC) meliputi

15. Urutan Proses KDD (Knowledge Discovery in Database Process)

16. Yang termasuk Smart Application

17. Yang termasuk Smart Application

18. Yang termasuk Smart Application

19. Yang tidak termasuk Smart Application

20. Yang tidak termasuk Smart Application

2. Tujuan pembelajaran unsupervised adalah membangun model yang dapat

3. Yang tidak digunakan pada Model Supervised Learning

5. Aplikasi aplikasi yang memanfaatkan machine learning, kecuali

6. Aplikasi yang memanfaatkan machine learning, kecuali

10. Contoh implementasi supervised learning, kecuali

12. Tahapan yang tepat ketika melakukan testing

17. sama kaya 12

19. Pembelajaran yang menghasilkan Nilai output bernilai diskrit (kelas)

2. Algoritma yang berusaha menemukan pola tersembunyi atau pengelompokan data

3. Algoritme yang bukan digunakan untuk pengelompokan (Clustering)

4. Algoritme yang menggunakan pohon hash untuk menghitung kumpulan item,

5. Algoritme yang menggunakan pohon hash untuk menghitung kumpulan item,

6. Jenis algoritme pengurangan dimensi yang digunakan untuk mengurangi redundansi

7. Kemampuannya untuk menemukan persamaan dan perbedaan informasi

8. Metode berbasis aturan untuk menemukan hubungan antara variabel dalam

9. Pembelajaran mesin tanpa pengawasan, menggunakan algoritme pembelajaran

11. Pendekatan Unsupervised Learning adalah…

13. Pengelompokan yang sebagai "pendekatan bottom-up". Di mana titik datanya

20. Yang bukan tugas dari pembelajaran tanpa pengawasan

2. Berikut ini merupakan contoh permasalahan yang dapat diselesaikan dengan

8. Fungsi reward dalam Markov Decision Process dapat bernilai bilangan:

9. Markov Decision Process dapat didefinisikan kedalam n-tuple, dimana bernilai:

12. Pernyataan yang benar terkait reinforcement learning:

13. Reinforcement learning dapat diilustrasikan sebagai interaksi antara:

14. Reinforcement learning dapat diterapkan dalam permasalahan:

16. Reinforcement learning tepat digunakan untuk menyelesaikan permasalahan utama