9. Industri apa yang tidak disebutkan dalam contoh use case analytics:
a. Pertambangan
b. Kesehatan
c. Perbankan
d. Penerbangan
10. Level Analytics yang paling tidak membutuhkan input dari manusia:
a. Preskriptif
b. Diagnostik
c. Prediktif
d. Deskriptif
11. Mengapa Big Data dianggap penting dalam dunia digital saat ini:
a. Memungkinkan data-driven decision making dan menyediakan valuable
insight
b. Membuat organisasi dapat men-generate data dengan cepat
c. Sebagai solusi yang bisa memecahkan semua masalah terkait data
d. Hanya berlaku untuk perusahaan besar
12. Model Pemrograman apa yang terasosiasi dengan Big Data/Hadoop untuk
memproses data besar secara paralel:
a. Python
b. SQL
c. MapReduce
d. Java
13. Role Data Scientist mulai muncul pada level perusahaan analytics:
a. 2.0
b. 3.0
c. 4.0
d. 1.0
14. Salah satu alasan kenapa big data dibutuhkan adalah terkait tantangan untuk
menjaga konsistensi dan akurasi. Ini merupakan:
a. Veracity
b. Voluntary
c. Value
d. Variety
15. Salah satu keuntungan Hadoop adalah fault tolerance. Maksudnya adalah:
a. Mengurangi waktu pemrosesan data
b. Data tidak hilang saat diproses
c. Tidak Membutuhkan Backup Data
d. Memungkinkan task yang gagal untuk dijalankan kembali di node yang lain
16. Salah satu keuntungan Hadoop adalah Scale horizontally. Maksudnya adalah:
a. Dapat memproses data secara horizontal
b. Dapat Menambahkan Ram lebih banyak
c. Dapat menambahkan CPU di tiap Node
d. Dapat menambahkan server baru sebagai Node tambahan
17. Teknologi Big Data yang terkenal dengan high-speed data processing dan kapabilitas
data analyticsnya:
a. MongoDB
b. Hadoop
c. HDFS
d. Spark
18. Teknologi di Big Data/Hadoop yang dapat digunakan sebagai data warehouse dan
query berbasis SQL:
a. Pig
b. MapReduce
c. Hive
d. YARN
minggu 3
1. Jenis kelamin, merupakan salah satu atribut data type…
nominal
11. Data Cleaning merupakan tahapan untuk membersihkan data kotor sehingga
menjadi dataset yang siap diolah. Data kotor tersebut berupa
a. A,B,C benar
b. missing value
c. outlier
d. duplicate data
14. Imputasi nilai secara otomatis saat menangani incomplete data tidak dapat dilakukan
menggunakan
a. Rata-rata
b. Median
c. interpolasi
d. Nilai tertinggi
15. penanganan missing value dapat dilakukan menggunakan nilai estimasi dari
probabilitas bersyarat menggunakan metode
bayessian
16. Data berupa video dan suara (audio) termasuk jenis data
record
17. Nilai yang merepresentasikan urutan seperti nilai mata kuliah termasuk dalam atribut
data type..
ordinal
18. Statistik dasar untuk mengukur sebaran data salah satunya adalah
variance
19. Salah satu jenis data record yang diekstrak menjadi kumpulan term dan ditulis
berdasarkan frekuensi kemunculan data, termasuk pada jenis data
dokumen
20. Nama pelanggan, jenis barang, nama barang, merupakan contoh dari atribut bertipe:
nominal
minggu 4
1. CRISP-DM (Cross Industry Standard Process for Data Mining)
a. Data Understanding - Data Preparation - Modelling - Bussiness Understanding -
Evaluation - Deployment
b. Data Preparation - Data Understanding - Modelling - Bussiness Understanding -
Evaluation - Deployment
c. Data Preparation - Modelling - Bussiness Understanding - Data Understanding -
Evaluation - Deployment
d. Bussiness Understanding - Data Understanding - Data Preparation -
Modelling - Evaluation - Deployment
6. Evolusi dari teknologi basis data pada era 2000an adalah, kecuali
a. Data mining and its applications, Web technology (XML, data integration)
b. Global information systems
c. Data collection, database creation, IMS and network DBMS
d. Stream data management and mining
10. pekerjaan data mining yang memperkirakan sebuah nilai dalam rentet waktu (Time
Series)
a. Prediksi / Forecasting
b. Estimasi
c. Klasifikasi
d. Deskriptif Exploratory Data Analysis
13. Tools Open source component based software dalam Java yang sering digunakan
untuk "Predictive Analysis" dan menawarkan integrated environments untuk machine
learning , deep learning dan teks mining
a. Mahout
b. Microstrategy
c. Orange
d. RapidMiner
minggu 5
1. Sebuah proses yg mempersiapkan data sehingga data tsb bisa kita extract cirinya
menjadi suatu vektor
feature extraction
7. Algoritma machine learning yang mendevelop predictive model berdasar input dan
output data, kecuali
a. SVM
b. Linear Regression
c. Naive Bayes
d. KMeans
8. Jika variabel keluaran adalah berupa kategori misalnya “apel”, “jeruk” termasuk pada
machine learning bertipe
supervised - classification
9. Pembelajaran yang bertujuan memprediksi output dengan akurat untuk data baru
dan output ti bernilai kontinu (riil), contoh untuk Prediksi kinerja CPU
regresi
11. Kumpulan data yg sudah dipastikan kebenarannya, dr sisi label, data awal,
komponen2 data yg akan dijadikan kunci
training set
14. Ciri2 dr masing2 sample data misalnya Smartphone: ciri:memiliki layar, kamera,
tombol dll
feature / atribut
15. Yang bukan tujuan supervised learning untuk membangun model yang dapat
menghasilkan output yang benar untuk suatu data input dapat digunakan untuk
a. Regresi (regression)
b. Klasterisasi (clustering)
c. Pengklasifikasian (classification)
d. Ranking
16. Model ini belajar dari kumpulan data berlabel dan kemudian digunakan untuk
memprediksi peristiwa di masa depan.
supervised learning
18. Model pembelajaran yang menggunakan data berlabel dan tidak berlabel untuk
pelatihan.
semi supervised learning
20. Aplikasi yang mendeteksi spam atau bukan ada pada ranah
klasifikasi
minggu 6
1. Algoritma yang paling banyak digunakan untuk task Association rules
a. Eclat
b. Apriori
c. FP-Growth
d. Apriori
10. Pendekatan reduksi dimensi lain yang memfaktorkan matriks, A, menjadi tiga matriks
peringkat rendah. SVD dilambangkan dengan rumus, A = USVT, di mana U dan V
adalah matriks ortogonal. S adalah matriks diagonal, dan nilai S dianggap sebagai
nilai tunggal matriks A. Principal component analysis
singular value decomposition
12. Pengelompokan yang mengambil pendekatan "top-down". Dalam hal ini, satu cluster
data dibagi berdasarkan perbedaan antara titik data. Pengelompokan dengan cara
ini tidak umum digunakan, tetapi masih perlu diperhatikan dalam konteks
pengelompokan hierarkis. Proses pengelompokan ini biasanya divisualisasikan
menggunakan dendrogram, diagram mirip pohon yang mendokumentasikan
penggabungan atau pemisahan titik data pada setiap iterasi.
pendekatan divisive
14. Salah satu bentuk pengelompokan yang memungkinkan titik data menjadi bagian
dari beberapa kluster dengan derajat keanggotaan terpisah. Ini disebut juga
Pengelompokan "lembut" atau fuzzy k-means
tumpang tindih (overlapping)
15. Salah satu bentuk pengelompokan yang menetapkan bahwa suatu titik data hanya
dapat ada dalam satu cluster. Ini juga bisa disebut sebagai pengelompokan "keras".
Algoritma yang digunakan salah satunya adalah K-means clustering
Clustering Eksklusif (specifically exclusive)
16. Teknik tanpa pengawasan yang membantu menyelesaikan estimasi kepadatan atau
masalah pengelompokan "lunak". Dalam hal ini, titik data dikelompokkan
berdasarkan kemungkinannya termasuk dalam distribusi tertentu. Teknik yang paling
umum digunakan adalah Gaussian Mixture Model (GMM)
pendekatan probabilistik
17. Teknik yang digunakan ketika jumlah fitur, atau dimensi, dalam kumpulan data
tertentu terlalu tinggi. Teknik ini mengurangi jumlah input data ke ukuran yang dapat
dikelola sambil juga menjaga integritas set data sebanyak mungkin, biasanya
digunakan dalam tahap data praproses
dimensionality reduction
18. Teknik yang memanfaatkan jaringan neural untuk mengompresi data dan kemudian
membuat ulang representasi baru dari input data asli. Terdapat lapisan tersembunyi
secara khusus bertindak sebagai penghambat untuk memampatkan lapisan
masukan sebelum merekonstruksi di dalam lapisan keluaran.
autoencoders
19. Teknik yang mengelompokkan data yang tidak berlabel berdasarkan persamaan atau
perbedaannya. Algoritma ini digunakan untuk memproses objek data mentah dan
tidak terklasifikasi menjadi grup yang diwakili oleh struktur atau pola dalam informasi.
clustering
minggu 7
1. Berikut ini merupakan beberapa algoritma reinforcement learning, kecuali:
a. Q-learning
b. State-Action-Reward-State-Action (SARSA)
c. Hill-Climbing Bagged Ensemble Selection (HCES-Bag)
d. Deep Deterministic Policy Gradient (DDPG)
3. Berikut ini merupakan pernyataan yang kurang tepat terkait reinforcement learning
(RL):
a. RL dapat digunakan dalam menciptakan sistem pelatihan untuk siswa yang
bersifat kustom
b. RL memerlukan lingkungan untuk berinteraksi secara repetitif
c. RL dapat digunakan pada robotik untuk otomasi industri
d. RL yang diselesaikan dengan Markov Decision Process memerlukan data
latih dalam menentukan probabilitas transisinya
4. Berikut ini merupakan pernyataan yang salah terkait Markov Decision Process:
a. Elemen matriks probabilitas transisi bernilai antara 0 dan 1
b. Fungsi nilai state-action dapat dinyatakan dalam persamaan ekspektasi Bellman
c. Total policy pada suatu state untuk semua reward adalah 1
d. Fungsi reward dapat dinyatakan sebagai suatu fungsi ekspektasi
5. Dalam memilih aksi pada suatu state perlu diperhatikan hal-hal berikut ini:
a. Nilai state-action pada suatu waktu berlaku untuk sembarang policy
b. Memaksimumkan reward pada masa mendatang
c. Memilih aksi yang memberikan state dengan nilai tertinggi
d. Semua benar
6. Efek dari suatu aksi yang dipilih dari suatu state yang bergantung hanya pada state
tersebut saja bukan pada state-state sebelumnya dikenal sebagai sifat:
Markov
7. Efek dari suatu pilihan aksi pada suatu state ditentukan oleh:
Model transisi
10. Pada Markov Decision Process, pemilihan ruas jalan dalam permasalahan shortest
path merupakan bagian dari:
Action
11. Pemilihan suatu aksi pada suatu state tertentu didalam Markov Decision Process
ditentukan oleh:
Policy
17. Reward dalam permasalahan shortest path yang dimodelkan dengan Markov
Decision Process ditandai dengan:
Nilai bobot pada ruas
18. Sekumpulan token yang mewakili setiap kemungkinan keadaan dari agen disebut
sebagai:
State
19. Sifat Markov dalam Markov Decision Process diperlukan langsung dalam
menentukan:
Matriks probabilitas transisi
minggu 8
1. Jenis arsitektur jaringan saraf yang mempertahankan informasi melalui loop dan
digunakan untuk tugas yang melibatkan urutan data, seperti teks atau waktunya
dinamakan Recurrent Neural Network (RNN)
2. Teknik yang mengelompokkan data yang tidak berlabel berdasarkan persamaan atau
perbedaannya. Algoritma ini digunakan untuk memproses objek data mentah dan
tidak terklasifikasi menjadi grup yang diwakili oleh struktur atau pola dalam informasi
Clustering
3. Keadaan di mana model terlalu diperinci untuk data pelatihan dan kinerjanya buruk
pada data yang tidak terlihat sebelumnya dinamakan Overfitting
5. Lapisan di antara lapisan input dan lapisan output yang melakukan pemrosesan dan
ekstraksi fitur dinamakan Hidden Layer
6. Visualisasi dari hasil analisis Big Data dapat berupa: Semua benar
8. Keadaan di mana model terlalu sederhana dan tidak dapat menangkap kompleksitas
dari data pelatihan atau tidak dapat umum ke data yang belum terlihat. Underfitting
9. Parameter yang diatur sebelum pelatihan model dimulai dan tidak diubah selama
pelatihan. Contohnya termasuk tingkat pembelajaran dan jumlah epoch.
Hyperparameter
10. Dalam arsitektur Big Data, solusi berupa rekomendasi, berada pada posisi sebagai:
End Result
11. Dataset dibentuk dari: Sekumpulan objek yang memiliki fitur yang sama
12. Algoritma optimisasi yang digunakan untuk meminimalkan fungsi kerugian dengan
mengadjust parameter model dinamakan Gradient Descent
13. Perbedaan Deep Learning dengan machine learning konvensional, kecuali Jumlah
data
14. Sumber data yang digunakan dalam aplikasi Big Data dapat berupa: Semua benar
15. Cabang dari kecerdasan buatan (AI) yang berfokus pada interaksi antara komputer
dan bahasa manusia yang memungkinkan komputer untuk memahami,
menginterpretasi, dan berinteraksi dengan bahasa manusia dalam cara yang
bermakna adalah Natural Language Processing (NLP)
16. Jenis arsitektur jaringan saraf yang khusus dirancang untuk tugas pengolahan citra
dinamakan Convolutional Neural Network (CNN)
17. Teknik regularisasi yang melibatkan menghapus secara acak beberapa node atau
koneksi dalam jaringan selama pelatihan untuk mencegah overfitting. Dropout
18. Unit dasar dalam jaringan saraf yang menerima input, melakukan operasi
matematika, dan menghasilkan output dinamakan Node
19. Natural Language Processing dapat membantu menganalisis teks yang memiliki
struktur, kecuali Gambar
20. Berikut ini adalah kekurangan pada deep learning, kecuali Interpretasi
minggu 9
1. Keadaan di mana model terlalu diperinci untuk data pelatihan dan kinerjanya buruk
pada data yang tidak terlihat sebelumnya dinamakan
a. Hyperparameter
b. Dropout
c. Overfitting
d. Underfitting
2. Yang bukan tujuan supervised learning untuk membangun model yang dapat
menghasilkan output yang benar untuk suatu data input dapat digunakan untuk
a. Regresi (regression)
b. Klasterisasi (clustering)
c. Ranking
d. Pengklasifikasian (classification)
5. Lapisan di antara lapisan input dan lapisan output yang melakukan pemrosesan dan
ekstraksi fitur dinamakan
a. Output Layer
b. Hidden Layer
c. Convolution Layer
d. Input Layer
10. Teknik regularisasi yang melibatkan menghapus secara acak beberapa node atau
koneksi dalam jaringan selama pelatihan untuk mencegah overfitting
a. Underfitting
b. Dropout
c. Hyperparameter
d. Overfitting
11. Model ini belajar dari kumpulan data berlabel dan kemudian digunakan untuk
memprediksi peristiwa di masa depan.
a. Reinforcement Learning
b. Supervised Learning
c. Semi Supervised Learning
d. Unsupervised Learning
12. Algoritma yang berusaha menemukan pola tersembunyi atau pengelompokan data
tanpa perlu campur tangan manusia.
a. Semi Supervised Learning
b. Supervised Learning
c. Deep Learning
d. Unsupervised Learning
13. Natural Language Processing dapat membantu menganalisis teks yang memiliki
struktur, kecuali
a. Dokumen
b. Artikel
c. Berita
d. Gambar
14. Cabang dari kecerdasan buatan (AI) yang berfokus pada interaksi antara komputer
dan bahasa manusia yang memungkinkan komputer untuk memahami,
menginterpretasi, dan berinteraksi dengan bahasa manusia dalam cara yang
bermakna adalah
a. Generative Adversarial Network (GAN):
b. Long Short Term Memory Network (LSTM)
c. Recurrent Neural Network (RNN)
d. Natural Language Processing (NLP)
15. Jenis arsitektur jaringan saraf yang mempertahankan informasi melalui loop dan
digunakan untuk tugas yang melibatkan urutan data, seperti teks atau waktunya
dinamakan
a. Long Short Term Memory Network (LSTM)
b. Recurrent Neural Network (RNN)
c. Generative Adversarial Network (GAN):
d. Convolutional Neural Network (CNN)
16. Parameter yang diatur sebelum pelatihan model dimulai dan tidak diubah selama
pelatihan. Contohnya termasuk tingkat pembelajaran dan jumlah epoch.
a. Overfitting
b. Underfitting
c. Hyperparameter
d. Dropout
18. Dalam arsitektur Big Data, solusi berupa rekomendasi, berada pada posisi sebagai:
a. Data Format
b. Data Computing & Analysis
c. End Result
d. Data Storage Layer
19. Teknik yang mengelompokkan data yang tidak berlabel berdasarkan persamaan atau
perbedaannya. Algoritma ini digunakan untuk memproses objek data mentah dan
tidak terklasifikasi menjadi grup yang diwakili oleh struktur atau pola dalam informasi.
a. Association
b. Clustering
c. Regression
d. Dimensionality reduction
20. Jenis arsitektur jaringan saraf yang khusus dirancang untuk tugas pengolahan citra
dinamakan
a. Generative Adversarial Network (GAN):
b. Convolutional Neural Network (CNN)
c. Long Short Term Memory Network (LSTM)
d. Recurrent Neural Network (RNN)
minggu 10
1. Spark module untuk melakukan segala proses machine learning:
a. Spark GraphX
b. Spark SQL
c. Spark Streaming
d. Spark MLib
8. Proses learning (fit) dan menghasilkan model, adalah pernyataan yang menjelaskan
tentang:
a. Estimator
b. Pipeline
c. Semua benar
d. Transformer
13. Berikut ini adalah module yang disediakan oleh Spark, kecuali:
a. Spark MLib
b. HDFS
c. Spark SQL
d. Spark Streaming
15. Proyek Spark di Apache Software Foundation mulai diperkenalkan pada tahun:
a. 2006
b. 2013
c. 2002
d. 2004
16. Manakah pernyataan yang tepat untuk menggambarkan DataFrame (DF) pada
Spark:
a. Semua benar
b. Didistribusikan dalam JVM sebagai JVM Object
c. Didistribusikan dalam sebagai Row Object
d. Dalam spark didistribusikan sebagai row object, dibungkus dan disimpan sebagai
JVM object
20. Manakah pernyataan yang tepat untuk menggambarkan Dataset pada Spark:
a. Didistribusikan dalam JVM sebagai JVM Object
b. Dalam spark didistribusikan sebagai row object, dibungkus dan disimpan
sebagai JVM object
c. Didistribusikan dalam sebagai Row Object
d. Semua benar