Gambar Keterkaitan antara Big Data, Data Science dan Artificial intelegency
https://mooc.aptikom.or.id/
1. Machine Learning, merupakan irisan dari matematika dan statistik dengan ilmu komputer dan
merupakan cabang dari disiplin ilmu kecerdasan buatan (Artificial Intelligence). Konsep dasar dari
Beberapa tahapan yang dapat dilakukan untuk membangun aplikasi data science antara lain adalah analisis
kebutuhan, mendapatkan data, mengeksplorasi data, membuat model data, mengkomunikasikan dan
visualisasi hasil. Sebagaimana pengembangan perangkat lunak pada umumnya pengembangan aplikasi
data science membutuhkan team work yang menyediakan siklus hidup untuk menyusun pengembangan
projek. Team projek dapat menggunakan model-model siklus hidup data science seperti TDSP, CRISP-DM,
KDD, atau dapat mengembangkan proses sesuai dengan kebutuhannya sendiri.
Gambar Keterkaitan antara Big Data, Data Science dan Artificial intelegency
https://docs.microsoft.com/id-id/azure/architecture/data-science-process
Artefak tujuan, tugas, dan dokumentasi untuk setiap tahap siklus hidup di TDSP dijelaskan dalam
topik siklus hidup Proses tim Ilmu Data. Tugas dan artefak ini dikaitkan dengan peran proyek meliputi : -
Arsitek solusi, - Manajer proyek, - Insinyur data, - Ilmuwan data, - Pengembang aplikasi, - Memimpin
proyek. Diagram berikut memberikan tampilan kisi tugas (biru) dan artefak (hijau) yang terkait dengan
setiap tahap siklus hidup (pada sumbu horizontal) untuk peran ini (pada sumbu vertikal).
Templete Struktur folder proyek mengatur file yang berisi kode untuk eksplorasi data, ekstraksi fitur,
dan iterasi model rekaman. Template ini memudahkan anggota tim untuk memahami pekerjaan yang
dilakukan oleh orang lain dan menambahkan anggota baru ke tim. Sangat mudah untuk melihat dan
memperbarui template dokumen dalam format penurunan harga. Tim dapat menggunakan template untuk
menyediakan daftar periksa dengan pertanyaan kunci untuk setiap proyek. Hal ini dapat memastikan
bahwa masalah didefinisikan dengan baik dan bahwa hasil memenuhi kualitas yang diharapkan
Contoh templete Struktur file proyek dapat didownload melalui tautan atau scan barcode berikut:
https://github.com/Azure/Azure-TDSP-ProjectTemplate
Gambar Team work pada multiple project dan infrastruktur komponen cloud analitics
https://docs.microsoft.com/id-id/azure/architecture/data-science-process
https://id.bitdegree.org/tutorial/deskripsi-pekerjaan-data-scientist/
c. Data semi-terstruktur
Data Semi-Terstruktur merupakan bentuk data yang berisi format data terstruktur dan data tidak
terstruktur. Data Semi-Terstruktur merujuk pada data yang belum diklasifikasikan di bawah repositori
tertentu (database), namun mengandung informasi penting yang memisahkan elemen individu dalam
data. Contohnya, data dalam bentuk file .json atau .xml.
b. Class/label/target
Class/label adalah atribut yang akan dijadikan target. label adalah variabel yang dipelajari oleh
pembelajaran mesin untuk diprediksi yang terdiri:
• label kategoris: mis, kategori artikel berita adalah label kategoris
• label numerik: misalnya, harga adalah label numerik
Parameter
Dua parameter(2V) lainnya yang menjadi parameter dalam menjelaskan big data yaitu Value dan Veracity.
Value merupakan nilai atau aliran data yang tidak teratur dan konsisten dalam beberapa kondisi dan
periode. Hal tersebut dapat terjadi pada suatu kasus dimana terdapat lonjakan data yang besar sehingga,
akan memproses data dengan resource memori yang lebih besar. Veracity merupakan bentuk pembenaran
suatu data. Mengacu pada kualitas data tersebut, maka dapat berasal dari berbagai sumber. Perlu adanya
proses untuk menghubungkan dan mengkorelasikan beberapa hubungan data. Jika tidak ada relasi yang
baik, maka dapat menimbulkan kontrol yang lepas kendali.
Konsep kecerdasan buatan juga terdiri dari banyak teori, metode maupun teknologi. Berikut ini adalah
beberapa teknologi yang berperan dalam mengaktifkan dan mendukung suatu sistem kecerdasan buatan.
• Graphical Processing Unit, mendukung sistem kecerdasan buatan dalam menyediakan daya komputasi
yang besar. Daya komputasi besar akan menunjang pemrosesan data secara berulang.
• Internet of Things, menjadi sumber data. Bisa menghasilkan data dalam jumlah besar melalui setiap
perangkat yang terhubung.
• Advanced algorithm, mampu menganalisis data lebih banyak dan lebih cepat. Target akhirnya supaya
bisa memahami sistem yang kompleks, mengidentifikasi dan memprediksi suatu peristiwa langka, dll.
Hal ini masih terus dikembangkan dan dikombinasikan dengan berbagai metode baru.
• Application programming interfaces, merupakan suatu paket kode portable. Paket kode tersebut bisa
menambah fungsionalitas kecerdasan buatan ke suatu sistem atau software. Contohnya menerapkan
fitur face recognition pada kamera keamanan.
algoritma-algoritma yang termasuk dalam Supervised Learning adalah : - Decision Trees, -KNN (K-Nearest
Neighbor), - Feature Extraction, -Naïve Bayes, - SVM (Support Vactor Machines), - Artificial Neural Network,
- Unsupervised Learning
1.5.5. Unsupervised
Unsupervised Learning merupakan sebuah pemodelan dimana algoritmanya memodelkan sekumpulan
input secara otomatis tanpa adanya panduan output yang diinginkan. Model ini mengolah data yang tidak
memiliki label, tujuannya adalah mengelompokkan suatu data yang hampir sama dengan data tertentu.
Model ini tidak membutuhkan data training dalam melakukan prediksi maupun klasifikasi. Ciri-ciri mesin
learning – Unupervised: - Pembelajaran tidak terbimbing, - Data tidak memiliki output/label/target class, -
Tidak memiliki fase training, algoritma bekerja untuk menemukan pola/hubungan pada data input, Kategori
pekerjaan meliputi: klusterisasi, asosiasi, demensionality reduction
Algoritma yang termasuk dalam Unsupervised Learning adalah: - K-means, - Hierarchical clustering, -
DBSCAN, - Fuzzy C-Means, -Self-Organizing Map
Analisis regresi dapat diaplikasikan untuk memprediksi harga rumah di masa mendatang, membutuhkan
data historis berupa seperti luas bangunan, tingkat lantai, adakah tol terdekat, mall terdekat dan
BBPPV BOE Program Diklat: Level: Tanggal:
70 01 02 VT
UP/Reskilling - BUN Mei’ 2022
VEDC Judul Diklat: Pemrograman Progli: Rev.Tanggal: Dibuat oleh:
Hal
18 - 29
M A L A N G Python untuk Data Science Teknologi Informasi 19/05/2022 Abd Munif, Eko. S
sebagainya.Tujuannya analisis regresi dalam mesin learning adalah untuk memprediksi label numerik
dan pengamatan yang tidak berlabel. Algoritma regresi: Regresi linier, Pohon keputusan. Contoh
penerapannya adalah: • penilaian rumah, • Perdagangan aset, dan perkiraan, • Perkiraan penjualan
atau inventari
b. Naïve Bayes
Naïve Bayes adalah algoritma supervised learning yang menggunakan pendekatan probabilitas (teorema
Bayes) dengan asumsi “naïve” untuk probablitas kondisional yang tidak bergantung antara tiap nilai fitur.
Formula matematis dari Naïve Bayes adalah sebagai berikut:
Pada fase training, data digunakan untuk mendapatkan prior probability (P(c)) dan conditional probability
(Px|c). Probabilitas digunakan untuk menghitung posterior probability tiap kelas target dan didapatkan nilai
tertingginya “MAP (Maximum A Posterior)” atau disebut argument maksimum dari target class.
c. Silhoutte Coeffision
Silhouette Coefficient adalah matiks yang digunakan untuk mengukur performa dari teknik kluster. Rentang
nilai -1 sampai 1. Nilai 1: cluster terpisah dengan baik satu sama lain dan dibedakan dengan jelas. Nilai 0:
cluster indefferent, jarak antar cluster tidak signifikan. Nilai-1: cluster terkelompok dengan cara yang salah
Metode CRISP-DM
5. Download dan Pasang Aplikasi Rapid miner, ekplorasi fitur-fitur canggih yang telah disediakan.
b. Mengecek kesesuaian type data dengan datanya. Jika tidak cocok rubah type datanya sesuai
dengan data yang ditampilkan
c. Cara lain dapat dilakukan dengan drag file dataset dari panel repository dan drop di lembar
proses pada design view
f. Dari list data statistik dan tabel hasil retrieve Terdapat mising value pada beberapa atribute
1.9.4. Melakukan Data reduction (menghilangkan record pada missing value atribute
a. menambahkan filter example
b. mengatur parameter condition class dan parameter string seperti gambar. Hal ini untuk
menghilangkan mising value pada atribure Online_Shooping
2. DAFTAR PUSTAKA
VanderPlas, Jake, 2016, “Python Data Science Handbook Essential Tools for Working with Data”, O’Reilly
Media, Inc., 1005 Gravenstein Highway North, Sebastopol, CA 95472
Gatot Hari Priowirjanto, 2021, “Belajar Python untuk pemula, belajar memecahkan masalah sederhana
dalam Python lanjut”
Wahyono, Teguh, 2018,” Fundamental of Python for Machine Learning: Dasar-Dasar Pemrograman Python
untuk Machine Learning dan Kecerdasan Buatan”, Gava Media, Yogyakarta