Ketentuan :
1) Berilah Nama : Jonato Antonio Freitas
2) NIM/NPM :20211310109
3) Upload dalam file PDF ke dalam folder Quis, batas Upload sebelum UTS berlangsung
4) Biasakan ada referensi yang ditulis
5) Walaupun ini pertanyaan umum tetapi anda jawab, menurut kedalaman pengetahuan
anda.
Pertanyaan
3. Apa itu 'Training Set' dan 'test Set' dalam Model Machine Learning? Berapa Banyak Data yang
Akan Anda Alokasikan untuk Pelatihan, Validasi, dan Set Tes Anda?
Machine learning (ML) sesuai namanya adalah mesin yang dirancang untuk belajar (a machine
that is designed to learn). Oleh karena itu agar kita bisa mengetahui apakah ia belajar sesuai
keinginan kita, dan apakah performa yang diberikan sudah sesuai dengan tingkat akurasi yang kita
inginkan, setelah mesin itu kita ajari (train), maka perlu kita tes (test):
- Training set adalah bagian dataset yang kita latih untuk membuat prediksi atau menjalankan fungsi
dari sebuah algoritma ML. Kita memberikan petunjuk melalui algoritma agar mesin yang kita latih bisa
mencari korelasinya sendiri atau belajar pola dari data yang diberikan.
- Test set adalah bagian dataset yang kita tes untuk melihat keakuratannya, atau dengan kata lain
melihat performanya.
4. Bagaimana Anda Menangani Data yang Hilang atau Rusak dalam Dataset?
Salah satu cara yang dapat dilakukan untuk menangani missing data adalah dengan mengisi
missing data dengan nilai-nilai yang mungkin berdasarkan informasi yang tersedia pada data atau
dikenal dengan imputasi. Mean dan Algoritma K-Means merupakan metode yang dapat
digunakan untuk imputasi missing data
5. Bagaimana Anda Dapat Memilih Pengklasifikasi Berdasarkan Ukuran Data Set Pelatihan?
Kita harus yakin bahwa model yang dibuat merupakan model terbaik yang akan memberikan hasil
maksimal dan akurat. Oleh karena itu, kita perlu melakukan validasi terhadap model sebelum
digunakan untuk produksi. Validasi model adalah mengukur kinerja model dengan menghitung
segala bentuk tingkat kesalahan prediksi pada model. Lalu mengapa perlu mengetahui kinerja
model tersebut? dengan mengetahui kinerja model dapat membantu kita untuk mengoptimalkan
parameter pada model itu sendiri sehingga model jauh lebih akurat. Kita juga dapat memilih
model dengan algoritma terbaik karena setiap algoritma memiliki karateristik yang berbeda. Dan
yang terpenting adalah kita dapat mengetahui seberapa baik kinerja model tersebut sebelum
digunakan dalam produksi.
7. Apa itu Positif Palsu dan Negatif Palsu dan Bagaimana Signifikansinya?
. Dalam penguin medis dan lebih umum dalam klasifikasi biner, positif palsu adalah kesalahan
dalam pelaporan data di mana hasil tes tidak tepat menunjukkan adanya suatu kondisi, seperti
penyakit (hasilnya positif), padahal kenyataannya tidak ada , sementara negatif palsu adalah
kesalahan di mana hasil tes tidak tepat menunjukkan tidak adanya kondisi (hasilnya negatif),
padahal kenyataannya itu ada. Ini adalah dua jenis kesalahan dalam tes biner(dan dikontraskan
dengan hasil yang benar, baik positif benar atau negatif sejati.) Mereka juga dikenal dalam
kedokteran sebagai diagnosis positif palsu (masing-masing negatif), dan dalam klasifikasi statistik
sebagai kesalahan positif palsu (masing-masing negatif).Positif palsu berbeda dari overdiagnosis,
dan juga berbeda dari overtesting.
13. Apa Perbedaan Antara Pembelajaran Mesin yang Diawasi dan Tidak Diawasi?
Perbedaan utama antara pembelajaran mesin diawasi dan tidak diawasi adalah itu pembelajaran
yang diawasi menggunakan data berlabel sementara pembelajaran yang tidak diawasi
menggunakan data yang tidak berlabel.
14. Apa Perbedaan Antara Pembelajaran Mesin Induktif dan Pembelajaran Mesin Deduktif?
. Perbedaan antara pembelajaran mesin induktif dan pembelajaran mesin deduktif :
- PEMBELAJARAN MESIN INDUKTIF:
Dari perspektif pembelajaran induktif, kita diberikan sampel input dan sampel output dan masalahnya
adalah untuk memperkirakan fungsi . Secara khusus, masalahnya adalah untuk menggeneralisasi dari
sampel dan pemetaan agar berguna untuk memperkirakan output untuk sampel baru di masa depan.
- PEMBELAJARAN MESIN DEDUKTIF :
Pendekatan deduktif untuk mengajar bahasa dimulai dengan memberikan aturan kepada siswa,
kemudian contoh, kemudian praktik. Ini adalah pendekatan yang berpusat pada guru untuk menyajikan
konten baru. Ini dibandingkan dengan pendekatan induktif, yang dimulai dengan contoh dan meminta
peserta didik untuk menemukan aturan dan karenanya lebih berpusat pada peserta didik.
18. Bagaimana Anda Mengetahui Algoritma Machine Learning mana yang harus dipilih untuk
Masalah Klasifikasi Anda?
Karena algoritma machine learning sesuai dengan permasalahan yang dihadapi oleh perusahaan.
Permasalahan di sini memang beragam, misalnya faktor klasifikasi, regresi, deteksi anomali,
clustering, image classification, text analytic, dan sebagainya. Jika Anda telah mengklasifikasikan
dan memetakan masalah yang ada, eliminasilah algoritma yang tidak digunakan. Hal itu bisa
mengefisienkan waktu dan pemetaan. Dan perhatikan ukuran training set, apalagi ketika
mengumpulkan data dalam jumlah besar. Bila Anda memiliki kumpulan data yang tidak terlalu
banyak dan fitur yang cukup lengkap, Anda bisa memilih algoritma dengan bias dan varian yang
rendah, seperti Linear SVM dan Naive Bayes. Sebaliknya, jika kumpulan data dalam jumlah yang
besar, pilih bias rendah dengan varian yang tinggi, seperti Kernel SVM, KNN, maupun
menggunakan metode decision trees.
19. Bagaimana Amazon Dapat Merekomendasikan Hal Lain untuk Dibeli? Bagaimana Mesin
Rekomendasi Bekerja?
AWS Compute Optimizer menyediakan rekomendasi instans Amazon EC2 untuk membantu
Anda meningkatkan performa, menghemat uang, atau keduanya. Anda dapat menggunakan
rekomendasi ini untuk memutuskan apakah akan beralih ke jenis instans baru. Untuk membuat
rekomendasi, Compute Optimizer menganalisis spesifikasi instans dan metrik pemanfaatan Anda
yang ada. Data yang dikompilasi kemudian digunakan untuk merekomendasikan jenis instans
Amazon EC2 mana yang paling mampu menangani beban kerja yang ada. Rekomendasi
dikembalikan bersama dengan harga instans per jam. Topik ini menguraikan cara melihat
rekomendasi melalui konsol Amazon EC2.
23. Mempertimbangkan Daftar Panjang Algoritma Pembelajaran Mesin, dengan Kumpulan Data,
Bagaimana Anda Memutuskan Yang Mana yang Akan Digunakan?
Beberapa algoritma pembelajaran mesin paling sering digunakan antara lain:
• Linear regression.
• Logistic regression.
• K-means clustering.
• Hierarchical clustering.
• K Nearest Neighbor (KNN)
• Decision Tree.
• Random Forest.
• Support Vector Machine (SVM)
24. Apa itu Bias dan Varians dalam Model Machine Learning?
Bias adalah kencenderungan algoritma machine learning untuk melakukan penyederhanaan dalam
mempelajari kumpulan data dengan tidak mempertimbangkan semua informasi
Variance adalah variabilitas dalam prediksi model. Variance terjadi ketika model bekerja terlalu
baik pada data pelatihan namun tidak bekerja dengan baik pada data pengujian atau data validasi.
Dengan kata lain, model akan menghasilkan akurasi yang baik menggunakan data latih,
sedangkan saat menggunakan data uji atau data validasi hasilnya akurasinya kurang baik
30. Apa asumsi yang perlu Anda ambil sebelum memulai dengan regresi linier?
Asumsi normalitas adalah asumsi residual yang berdistribusi normal. Asumsi ini harus dipenuhi
untuk model regresi linier yang baik.
Selamat menjawab….