Data Science Teori

Ujian Teori : dari soal-soal berikut ada 8 soal yang dikeluarkan pada saat UTS:
1. Jelaskan secara teori statistik mengenai outlier (pencilan), implikasinya

3. Sebutkan teori dasar machine learning yang kalin ketahui, lalu jelaskan
dalam analisis data, serta bagaimana melakukan manajemen data terhadap
dalam bahasa sederhana mengenai teori tersebut dan implikasinya.
kasus outlier.
 Menurut Tom Mitchell (dalam Sahil, 2018), pembelajaran mesin adalah
 Dalam Engineering Statistics Handbook (2012), Outlier adalah data yang
“Sebuah komputer di program untuk belajar dari pengalaman (data) E
letaknya berada pada jarak yang abnormal dari data-data lain. Sedangkan
yang berkaitan dengan beberapa tugas (class) T dan ukuran performansi
menurut Moore and McCabe dalam John (, Outlier adalah data yang
P saat melaksanakan tugas T, saat diukur performa P meningkat dengan
terletak diluar pola keseluruhan dari sebuah distribusi. Sehingga outlier
pengalaman E”.
adalah data yang nilainya memiliki perbedaan yang signifikan dengan
 Machine learning adalah suatu sistem yang dibuat untuk menyelesaikan
mayoritas data yang ada. Cara menentukan apakah sebuah data adalah
permasalahan dengan cara mempelajari data-data yang berkaitan agar
outlier ada dua, yaitu berdasarkan standar deviasi dan kuartil.
mendapatkan pengalaman guna menyelesaikan permasalahan tersebut.
 Apabila kita ingin memakai data yang ada untuk membuat model machine
 Pada machine learning, terdapat konsep garbage in garbage out, yaitu
learning, ada baiknya data outlier dibuang sehingga model yang dibuat
sebaik apapun model algoritma yang digunakan, apabila data yang
nanti memiliki performa yang baik dan tidak terpengaruh dengan adanya
digunakan itu kualitasnya buruk maka model yang dihasilkan akan linear
outlier
dengan kualitas data yang diberikan. Sehingga penting untuk seorang
2. Jelaskan konsep dan prinsip korelasi, lalu sebisa mungkin kaitkan dengan machine learning engineer untuk memahami data yang diperlukan guna
dasar-dasar statistik serta implikasinya terhadap konsep/teori statistik lain. membuat model yang baik.
Korelasi adalah sebuah teknik dalam statistika untuk menentukan kuat pengaruh 4. Mengunakan bahasa kalian sendiri, jelaskan kaitan antara data science,
satu variabel dengan variabel lain. Korelasi antara dua variabel semakin machine learning dan deep learning.
berbanding lurus secara linear (semakin besar variabel A, semakin besar variabel
 Artificial Intelligence adalah kemampuan program untuk belajar dan
B) bila nilai korelasi mendekati satu. Bila nilai korelasi semakin mendekati negatif
berpikir seperti manusia sehingga dapat menyelesaikan suatu
satu, maka hubungan antara dua variabel akan semakin berbanding terbalik
permasalahan tertentu.
secara linear (semakin besar variabel A, semakin kecil variabel B).
 Machine Learning adalah sebuah algoritma yang memiliki kemampuan
Korelasi memang menggambarkan hubungan antara satu variabel dengan untuk belajar tanpa perlu di program secara eksplisit dengan cara dilatih
variabel lain, namun tidak selalu menggambarkan hubungan yang terjadi karena menggunakan data yang bersangkutan dengan permasalahan yang ingin
keterkaitan suatu hal atau kausalitas. Semisal bila dilihat dari korelasi, kenaikan diselesaikan.
kasus kulit terbakar (sunburn) berbanding lurus dengan penjualan es krim.  Deep Learning adalah bagian dari machine learning yang dimana
Semakin banyak es krim yang terjual, maka semakin tinggi juga kasus kulit algoritma ini berbentuk seperti jaringan syaraf tiruan yang dapat
terbakar. Namun dibalik korelasi tersebut ada variabel lain yang juga berperan beradaptasi dan belajar dari data dalam jumlah yang besar
penting yaitu suhu dan tingkat konsentrasi sinar UV. Semakin tinggi suhu harian,
5. Apakah yang kalian ketahui mengenai interpretasi data? Bagaimana
semakin tinggi juga penjualan es krim. Hal itu dapat kita logikakan dengan
signiikansi dan tantangannya? Bagaimana kaitan interpretasi data dengan data
sederhana. Begitu juga dengan konsentrasi sinar UV harian, semakin tinggi suhu
story telling dan decission making?
pada hari tersebut, konsentrasi sinar UV akan semakin tinggi dan dapat
menyebabkan sunburn (Sulistya, 2020).
Interpretasi data adalah suatu metode yang digunakan untuk menyampaikan arti  Data kuantitaif adalah data yang memiliki nilai numerik sehingga dapat
atau temuan yang terdapat pada data, pada umumnya seorang data analyst akan dihitung langsung dengan matematik, contohnya seperti: Berat badan, umur,
melakukan interpretasi data dengan cara visualisasi sehingga data dapat dengan pendapatan gaji, angka kelahiran, dll.
lebih mudah untuk dipahami oleh stakeholder. Proses visualisasi ini sangatlah
8. Suatu apotik yang sudah memiliki banyak cabang, ingin menghabiskan stok
penting dikarenakan kita sebagai manusia akan lebih mudah untuk memahami
produk OTC-nya yang sudah mendekati expired. Sarankan promosi apa yang
sesuatu berdasarkan visual.
sesuai, dengan menggunakan analisis data science kepada apotik tersebut dan
Kaitan interpretasi data dengan data story telling adalah dalam melakukan data bagaimana tahapannya.
storytelling, dibutuhkan informasi yang bermanfaat, memiliki tujuan dan cerita
yang jelas, dan juga terdapat visualisasi yang menarik sehingga orang yang
melihat akan dengan cepat memahami data yang ada. Sedangkan kaitan dari A. Penentuan metode
interpretasi data dengan decision making adalah dengan adanya interpretasi data metode klasifikasi mampu menemukan model yang membedakan konsep
yang informatif dan mencantumkan juga rekomendasi aksi selanjutnya yang atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu
dapat diambil, orang yang melihat interpretasi data tersebut dapat dengan yakin objek yang labelnya tidak diketahui. Oleh sebab itu, algoritma naive bayes
mengambil keputusan dikarenakan telah melihat situasi yang ada dari data dan dapat memprediksi peluang di masa depan berdasarkan pengalaman
rekomendasi keputusan yang perlu diambil. dimasa sebelumnya. Sehingga dapat mengetahui minat masyarakat pada
produk apotek.
6. Dalam proses analisis data terdapat teknik Klustering dan Klasifikasi.
B. Penentuan variable
Jelaskan perbedaan keduanya, dan berikan contoh pertanyaan yang sesuai
Tentukan variable-variable yang memengaruhi suatu penjualan produk
dengan masing-masing.
C. Perhitungan
 Clustering adalah pengelompokkan data yang sedemikian rupa sehingga Perhitungan dengan naïve bayes dapat dilakukan untuk menentukan
objek-objek pada suatu cluster similar (serupa) satu sama lain dan objek peluang yang dihasilkan ketika produk tersebut ketika di asosiasikan atau
antar cluster berbeda dan menggunakan pendekatan unsupervised learning disandingkan atau bahkan tanpa disandingkan.
sehingga algoritma yang digunakan tidak menggunakan data training dan D. Jenis Promosi
algoritmanya belajar sendiri. Berapakah perkiraan harga bitcoin pada tahun Sehingga pemberian suatu promosi yang paling tepat adalah diskon
2024? disesuaikan dengan data Analisa produk terjual.
 Sedangkan Klasifikasi adalah permasalahan meng-kategorisasikan
9. Apa perbedaan supervised dan unsupervised learning?
sekelompok observasi baru ke sekumpulan kategori (kelas) yang ada
sebelumnya dan menggunakan pendekatan supervised learning sehingga  Supervised Learning adalah jenis algoritma Machine Learning yang
algoritma yang digunakan membutuhkan data training dan algoritmanya menggunakan kumpulan data yang diketahui (disebut kumpulan data
tidak bisa belajar sendiri. Bagaimana cara kerja suatu kernel? pelatihan) untuk membuat prediksi. Dataset pelatihan mencakup data input
dan nilai respons. Dari itu, algoritma pembelajaran yang diawasi berusaha
7. Jelaskan perbedaan antara data kuantitatif dan kualitatif, berikan
membangun model yang dapat membuat prediksi nilai respons untuk
contohnya.
kumpulan data baru.
 Data kualitatif adalah data yang tidak memiliki nilai kuantitas hanya bersifat  Sedangkan Unsupervised Learning adalah jenis algoritma Machine Learning
pembeda dan non-numerik perlu dikonversi menjadi data kuantitatif jika yang digunakan untuk menarik kesimpulan dari kumpulan data yang terdiri
ingin dihitung, contohnya seperti: Jenis Kelamin, agama, negara, dll. dari data input tanpa tanggapan berlabel.
10. Apa itu data cleansing, apa saja yang harus di bersihkan? Jelaskan Jika alur kerja sudah dilaksanakan, maka langkah selanjutnya adalah
tahapannya! mengendalikan pasca eksekusinya. Tujuannya adalah untuk mengevaluasi
rangkaian dari proses yang sudah dilakukan tersebut. Jika data yang ditemukan
Data cleansing atau yang disebut juga dengan data scrubbing merupakan suatu
tersebut tidak bisa diperbaiki bahkan selama eksekusi dilakukan, maka akan
proses analisa mengenai kualitas dari data dengan mengubah. Bisa juga
dikoreksi secara manual.
pengelola mengoreksi ataupun menghapus data tersebut. Data yang dibersihkan
tersebut adalah data yang salah, rusak, tidak akurat, tidak lengkap dan salah 11. Apa yang harus dilakukan jika ada data yang hilang atau mencurigakan?
format.
 Menyiapkan laporan yang berisi seluruh data yang dicurigai. Laporan ini
harus berisi validation criteria yang menyatakan bahwa data hilang
beserta tanggal dan waktu kejadian.
 Memeriksa data yang mencurigakan untuk menentukan langkah
perbaikan.
 Data yang tidak sah tersebut perlu diganti dengan sebuah validation code.
Tahapan :  Gunakan strategi terbaik untuk menganalisis missing data, seperti
1. Audit Data Cleansing deletion method atau single imputation methods.
 Lakukan backup utility, berfungsi buat mencegah kehilangan data dengan
Sebelum Anda melakukan data cleansing maka Anda harus melakukan audit data.
cara membuat salinannya.
Tujuannya adalah agar anomaly serta kontradiksi yang ada di dalam basis data
tersebut bisa terdeteksi dengan baik. Ini disebabkan karena proses ini sangat 12. Saat ini investasi menjadi bahan penting dengan maraknya instrumen
mendasar. Jika salah mengaudit data, tentunya proses selanjutnya tidak akan investasi baru dan peluang munculnya kebohongan melalui kampanye investasi.
bisa maksimal. Untuk meminimalisir hal tersebut, maka Anda harus Jelaskan bagaimana kiranya analisis data dapat berperan disini untuk
menggunakan software dan algoritma yang tepat. menciptakan iklim investasi yang baik?
2. Spesifikasi Alur Kerja

13. Sebutkan dan jelaskan dengan bahasamu jenis atau teknik pembelajaran
Dalam tahapan ini, anomaly dan kontradiksi basis data akan dihapus. Sehingga
mesin!
Anda akan mendapatkan data yang berkualitas tinggi untuk nantinya akan
dieksekusi di proses selanjutnya. 1. Supervised learning
Supervised learning dikenal sebagai algoritma yang telah berlabel, seperti halnya
3. Eksekusi Alur Kerja Data Cleansing
input dengan outputnya yang mudah diketahui. Tidak hanya itu, supervised juga
Ketika sudah menentukan spesifikasinya, maka langkah data cleansing yang mampu mengubah algoritma yang dimilikinya. Hal tersebut tentunya dilakukan
dilakukan adalah mengeksekusi alur kerjanya. Di tahapan ini data yang sudah untuk menyesuaikan dengan hasil yang diinginkannya.
dipilih akan ‘diverifikasi’ untuk tahu apakah data tersebut benar-benar sesuai
dengan yang dibutuhkan. Sehingga, untuk pelaksanaan proses ini perlu alur kerja 2. Semi-supervised learning
yang efektif dan efisien serta cermat. Berbeda dengan jenis sebelumnya. Pada. Bagian yang satu ini ia justru akan hadir
dengan menggunakan data yang berlabel dan juga belum berlabel. Hal tersebut
4. Pengendalian dan Pasca Eksekusi Data Cleansing dilakukan untuk melatih algoritma, agar ia dapat belajar dengan sendiri.
Jenis aplikasi ini umumnya digunakan dengan algoritma yang telah berlabel dalam untuk menghasilkan suatu informasi suatu informasi yang memiliki arti bagi
jumlah sedikit. Sedangkan yang belum berlabel dalam jumlah banyak. Ia juga perusahaan Data juga biasa diartikan sumber dari informasi
seringkali diterapkan pada aplikasi identifikasi wajah, baik itu dengan kamera ponsel
Informasi adalah data yang telah dibentuk menjadi sesuatu yang memiliki arti dan
atau bahkan webcam.
berguna bagi manusia.
3. Unsupervised learning
Informasi adalah Data yang diolah menjadi bentuk yang lebih berguna dan lebih
Apa itu machine learning dengan jenis unsupervised learning? Ia merupakan
berarti bagi yang menerimanya
kebalikan dari supervised learning. Karena itulah data yang dikelola pun tidak
memiliki label. Sehingga output yang dihasilkan belum tentu benar. Pengetahuan (knowledge) adalah kombinasi dari naluri, gagasan, aturan, dan
Tujuan dari jenis machine learning yang satu ini adalah untuk melakukan eksplorasi prosedur yang mengarahkan tindakan atau keputusan.
data juga menemukan struktur yang sering digunakan. Seperti halnya struktur
Perbedaan konsep data, informasi, pengetahuan
transaksional dan lainnya.
Data adalah fakta-fakta mentah atau deskripsi-deskripsi dasar dari hal, event,
4. Reinforcement learning
aktivitas, dan traksaksi yang ditangkap, direkam, disimpan, diklasifikasikan,tetapi
Jenis machine learning paling akhir yang juga harus Anda ketahui adalah
tidak diorganisasikan untuk tujuan spesifik tertentu.
reinforcement learning. Bagian yang satu ini seringkali digunakan dalam pembuatan
game, pembuatan robot atau bahkan teknologi navigasi. Informasi sekumpulan fakta (data) yang diorganisir dengan cara tertentu
Untuk algoritma yang dimilikinya sendiri akan menerima perlakuan. Sehingga ia pun sehingga mereka mempunyai arti bagi si penerima.
akan menampilkan output terbaik darinya. Hal tersebut bahkan dilakukan dengan
Pengetahuan terdiri dari informasi yang sudah diorganisasikan dan diproses
proses pengujian secara berulang kali.
untuk memperoleh pemahaman, pengalaman, pembelajaran yang terakumulasi,
sehingga dapat diaplikasikan dalam masalah atau proses bisnis tertentu.
14. Selain data tabular, jenis data apa saja yang biasa diproses oleh data jadi data diolah menjadi informasi, lalu informasi dikumpulkan akan menjadi
scientist? suatu pengetahuan.
 Data Real Time

 Data Natural Language
x16. Bagaimana Anda mendefinisikan data sebagai "analytic-ready"?
 Data Time Series
 Data Event #1 Data yang telah melalui proses cleaning dan unifying untuk memudahkan
 Data Jaringan akses dan analisis
 Data Link
#2 data analytic-ready proses inspeksi serangkaian data yang sudah siap dan
15. Bagaimana Anda mendefinisikan konsep data, informasi, dan berguna untuk mendapatkan kesimpulan dari informasi yang ada dan
pengetahuan? Bagaimana mereka bisa dibedakan? meningkatkan sistem pada software.
Data merupakan sebuah fakta mentah tentang orang, tempat, kejadian, dan
apapun yang penting bagi sebuah perusahaan yang harus dikontrol dan dikelola 17. Apa perbedaan antara data terstruktur, semi terstruktur, dan tidak
terstruktur?
Data terstruktur adalah data yang disimpan dalam baris dan kolom, rata-rata
numerik, dan setiap item data ditentukan. 10% dari total data saat ini adalah data
terstruktur dan dapat diakses melalui sistem pengelolaan database.
Data tidak terstruktur merupakan data yang bentuknya lebih beragam. Data tidak
terstruktur tidak dapat disimpan menggunakan database relasional tradisional.
Data semi-structured merupakan jenis data yang dimasukan ke dalam sebuah

tabel, tetapi skemanya tidak sama dengan tabel biasa yang hanya terdiri dari
baris dan kolom. Data semi-terstruktur mengandung format data terstruktur dan
tidak terstruktur. Walaupun belum diklasifikasi oleh repository tertentu
(database), namun mengandung informasi yang penting.

Data Science Teori

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Data Science Teori

Diunggah oleh

Hak Cipta:

Format Tersedia

Ujian Teori : dari soal-soal berikut ada 8 soal yang dikeluarkan pada saat UTS:

1. Jelaskan secara teori statistik mengenai outlier (pencilan), implikasinya

2. Spesifikasi Alur Kerja

 Data Real Time

Data semi-structured merupakan jenis data yang dimasukan ke dalam sebuah

Anda mungkin juga menyukai