1-Bahan Bacaan Konsep, Prinsip Implementasi Data Science2

KEMENTERIAN PENDIDIKAN DAN KEBUDAYAAN
Modul Diklat UP/RESKILLING
Pemorgraman Python Untuk Data Science

#1 Konsep, Prinsip dan Implementasi Data Science
BALAI BESAR PENGEMBANGAN

PENJAMINAN MUTU PENDIDIKAN VOKASI
BIDANG OTOMOTIF DAN ELEKTRONIKA
DAFTAR ISI
DAFTAR ISI .................................................................................................................................................... 2

1. BAB I KONSEP DATA SCIENCE, Data Mining dan Mesin Learning ............................................................. 3
1.1. Data Science ................................................................................................................................ 3
1.1.1. Apa itu data Science ...................................................................................................... 3
1.1.2. Tujuan Data Science ...................................................................................................... 3
1.1.3. Manfaat data Science .................................................................................................... 3
1.1.4. Implementasi data science ............................................................................................ 3
1.1.5. Desiplin Ilmu yang terkait dengan Data Science ............................................................ 4
1.1.6. Prinsip Kerja Data science ............................................................................................. 5
1.1.7. Model Projek Data Science ............................................................................................ 6
1.1.8. Profesi Data Scientist, Deskripsi Pekerjaan dan Kualifikasinya ...................................... 9
1.2. Data dalam Data science ............................................................................................................. 9
1.2.1. Pengertian: .................................................................................................................... 9
1.2.2. Ragam Jenis Data......................................................................................................... 10
1.2.3. Hirarki data dan data set ............................................................................................. 11
1.2.4. Big Data ....................................................................................................................... 11
1.3. Data Mining............................................................................................................................... 12
1.3.1. Pengertian ................................................................................................................... 12
1.3.2. Pra-proses Data ........................................................................................................... 13
1.4. Artificial Intelegency ................................................................................................................. 13
1.4.1. Pengertian ................................................................................................................... 13
1.4.2. Prinsip Kerja AI ............................................................................................................ 13
1.4.3. Sub Bidang dan Teknologi Penunjang AI ..................................................................... 13
1.5. Mechine Learning...................................................................................................................... 14
1.5.1. Pengertian ................................................................................................................... 14
1.5.2. Istilah-istilah dalam mechine learning ......................................................................... 15
1.5.3. Jenis Machine Learning ............................................................................................... 15
1.5.4. Surpervised.................................................................................................................. 16
1.5.5. Unsupervised............................................................................................................... 16
1.5.6. Algoritma Mesin Learning ........................................................................................... 16
1.5.7. Tasks on Machine Learning ......................................................................................... 17
1.5.8. Algoritma mechine learning ........................................................................................ 19
1.5.9. Performanse Measure ................................................................................................. 21
1.6. Apa itu Rapid Miner .................................................................................................................. 21
1.7. Apa yang dilakukan Oleh data Scientist .................................................................................... 22
1.8. Penugasan dan Eksplorasi ......................................................................................................... 22
1.9. Lab 1 Pemrosesan data awal menggunakan RapidMiner .......................................................... 23
1.9.1. Mengimport data ........................................................................................................ 23
1.9.2. Me-retrieve dataset .................................................................................................... 24
1.9.3. Memperbaiki missing value ......................................................................................... 25
1.9.4. Melakukan Data reduction (menghilangkan record pada missing value atribute ....... 26
1.9.5. Melakukan Filter data Sampling secara random ......................................................... 27
1.9.6. Mengatasi data tidak konsisten ................................................................................... 27
1.9.7. Melakukan data reductioan – select atribute .............................................................. 28
2. DAFTAR PUSTAKA .................................................................................................................................. 29
BBPPV BOE Program Diklat: Level: Tanggal:

70 01 02 VT
UP/Reskilling - BUN Mei’ 2022
VEDC Judul Diklat: Pemrograman Progli: Rev.Tanggal: Dibuat oleh:
Hal
2 - 29
MALANG Python untuk Data Science Teknologi Informasi 19/05/2022 Abd Munif, Eko. S
1. BAB I KONSEP, PRINSIP, IMPLEMENTASI DATA SCIENCE
1.1. Data Science

1.1.1. Apa itu data Science
Data science adalah bidang ilmu yang mempelajari proses pengolahan data. Mulai dari penggalian hingga
presentasi data. Tujuan utama adalah untuk mengubah data mentah menjadi informasi yang bermanfaat.
Data science merupakan bidang studi yang mengkombinasikan kemampuan programming, matematika,
dan statistika, juga pengetahuan umum untuk mendapatkan suatu insight (wawasan) dari data struktur
maupun tidak struktur. Data science terdiri dari beberapa bidang disiplin ilmu yaitu matematika dan
statistika, data mining, ilmu komputer, domain knowledge, dan artifical inteligence (meliputi deep learning,
machine learning, dan natural language processing (NLP)). Data scientist adalah orang yang bertugas untuk
mengumpulkan dan mengolah data. Sedangkan data analyst adalah orang yang melakukan analisa data dan
menafsirkan datanya.
1.1.2. Tujuan Data Science
Tujuan utama dari Data Science adalah untuk mendeskripsikan data dan menghasilkan prediksi yang tepat.
Di tahap deskripsi, pola dan tren dari data akan ditemukan sehingga dapat mempermudah proses analisa
dan pendefinisian masalah. Selanjutnya akan menghasilkan prediksi yang berupa nilai, probabilitas,
ataupun data. Hasil prediksi tersebut dapat digunakan untuk membantu proses pengambilan keputusan.
1.1.3. Manfaat data Science
Data adalah suatu fakta atau keterangan yang belum diolah seperti seperti foto, video, status, hingga
riwayat pembelian yang tersimpan di internet. Berdasarkan riset Statistik diprediksi akan ada sekitar 74
zettabyte data baru yang muncul di tahun 2021 dimana satu zettabyte setara dengan satu triliun gigabyte.
Dampak positif peningkatan jumlah data terhadap para pelaku bisnis adalah mereka bisa memanfaatkan
data yang ada untuk membuat keputusan-keputusan bisnis yang lebih logis dan kredibel. Selain itu banyak
hal yang bisa dinikmati dengan memanfaatkan data antara lain adalah:
1. Dengan menganalisis data histori penjualan bisnis bisa memprediksi produk yang laku pada musim-
musim tertentu (prediksi)
2. Sebuah bisnis manufaktur bisa melihat data produk gagal untuk meningkatkan kualitas produk ke
depannya.
3. Bisnis logistik bisa mengecek data terkait traffic dan rute untuk membuat proses pengiriman
menjadi lebih efisien.
4. Untuk meningkatkan tingkat kepuasan karyawan, divisi human resource bisa mengevaluasi data
yang berasal dari feedback karyawan.
5. Sebuah perusahaan sekuritas dapat melihat data tentang pola pasar finansial untuk membuat
keputusan investasi yang lebih efektif (pengambilan Keputusan)
6. Pengolahan data science dapat digunakan untuk mendeteksi celah keamanan website berdasarkan
data yang diperoleh dari plugin keamanan (deteksi)
7. Menentukan nilai akreditasi berdasarkan data terkait performa instansi (Pengambilan keputusan)
8. membedakan produk berkualitas tinggi dan produk berkualitas rendah berdasarkan data dari tim
quality control (Klasifikasi)
9. memberikan saran atau rekomendasi produk dari toko online berdasarkan halaman produk yang
dikunjungi calon pembeli (Rekomendasi)
1.1.4. Implementasi data science

Penerapan data science meliputi di berbagai bidang kehidupan antara lain adalah pada e-commerce,
banking, industri manufaktur, healtcare, transportasi, finance dan lainnya.

70 01 02 VT
Hal
3 - 29
Augmented reality Image recognition
Gambar Penerapan data Science https://mooc.aptikom.or.id/
1.1.5. Desiplin Ilmu yang terkait dengan Data Science

Setidaknya minimal ada tiga disiplin ilmu yang harus dipahami oleh seorang data scientis, yaitu matematika
dan statistika, domain knowledge, serta ilmu komputer. Dari ketiga domin tersebut pengguna dapat
mengkombinasikannya menjadi beberapa disiplin ilmu baru, seperti machine learning, software
development, dan traditional research.
Gambar Keterkaitan antara Big Data, Data Science dan Artificial intelegency
https://mooc.aptikom.or.id/
1. Machine Learning, merupakan irisan dari matematika dan statistik dengan ilmu komputer dan
merupakan cabang dari disiplin ilmu kecerdasan buatan (Artificial Intelligence). Konsep dasar dari

70 01 02 VT
Hal
4 - 29
machine learning adalah memberikan kemampuan pada komputer untuk terus belajar sehingga
komputer dapat menganalisa data dengan akurasi yang tinggi. Contoh penerapannya adalah
Cortana atau asisten yang tersedia pada Windows 10, Alpha-Go, dan Voice Search pada Google.
2. Software Development, merupakan bagian dari ilmu komputer. Software development akan
membangun aplikasi perangkat lunak. Aplikasi tersebut akan digunakan di beberapa perusahaan
maupun instansi untuk mempermudah menjalankan pelayanan atau bisnisnya. Aplikasi tersebut
dapat digunakan oleh siapapun dimanapun dan kapanpun. Contohnya adalah e-banking, e-library,
3. Traditional Research, merupakan irisan dari ilmu matematika dan statistika dengan domain
knowledge. Traditional research dimanfaatkan di berbagai perusahaan, instansi dan universitas,
digunakan untuk menganalisa data sehingga dapat memberikan insight yang diinginkan.
1.1.6. Prinsip Kerja Data science

Proses atau cara kerja sistem data science cukup komplek tergantung dan terkait dengan ragam, jenis,
kompleksitas data dan permasalahannya. Dari beberapa proses yang komplek tersebut alur penerapan
data science dapat disederhanakan menjadi lima tahapan yaitu:
a. Perencanaan: Data scientist merencanakan proyek yang akan dijalankan dan hasil yang
diharapkan
b. Penggalian data: merupakan proses pencarian data melalui metode kualitatif atau kuantitatif.
c. Pengelolaan data: Setelah didapatkan data yang diinginkan, data scientist akan menyimpan data
secara teratur agar mudah untuk diakses.
d. Identifikasi data: Data yang didapat akan diidentifikasi. Biasanya dengan memasang kategori atau
label pada masing-masing datanya.
e. Analisis data: setiap data akan diolah dan dianalisis agar pelaku bisnis bisa mendapat informasi
yang diinginkan.
f. Visualisasi data: Informasi yang diperoleh akan ditafsirkan ke dalam format yang lebih mudah
dipahami. Contohnya seperti grafik laporan.
Towards Data Science menjelaskan bahawa proses data science bukan hal yang mudah, tetapi proses yang
rumit. Proses tersebut dapat disederhanakan menjadi lima langkah yang dikenal dengan The OSEMN
framework, yaitu:
1. Obtain. Langkah awal proyek data science adalah mendapatkan atau mengumpulkan data. Data
dikumpulkan dari berbagai sumber data. Untuk mengelola/memproses data dapat menggunakan
DBMS seperti MySQL. Pemorgraman Python atau R, dapat langsung membaca, mengambil data
dari sumbernya melalui program data science yang digunakan.
2. Scrub. Scrubbing data adalah proses memberihkan atau menyaring data yang tidak penting atau
tidak relevan. Pada tahap ini, dilakukan standarisasi format data. Data dengan berbagai macam
format dikonversi ke satu format yang sama. jika ada data yang kurang atau hilang, harus
dilakukan penyesuaian agar dapat diproses. Proses ini juga menyatukan atau memisah kategori
data (tergantung dari kebutuhan).
3. Explore, tahap ini melakukan penggalian dan pemeriksaan data. Semua data harus diperiksa
propertinya, karena tipe data yang berbeda memerlukan perlakuan yang berbeda pula.
Kemudian, statistik deskriptif harus dihitung untuk dapat mengekstrak fitur dan menguji variabel
yang signifikan. Terakhir, visualisasi data (grafik) digunakan untuk mengidentifikasi pola dan tren
signifikan dalam data yang sudah didapatkan.
4. Model. Pada tahap ini, dibuat model data untuk mencapai tujuan yang diinginkan. Pemodelan
menggunakan regresi dan prediksi yang memperkirakan nilai di waktu mendatang serta
melakukan klasifikasi dan pengelompokan grup nilai dari data.
5. Interpret. Pengolahan data yang diinterpretasi harus bisa dipahami oleh orang awam yang tidak
mengerti istilah teknis. Presentasinya bertujuan untuk menjawab persoalan bisnis berdasarkan
data yang diperoleh. Kemampuan komunikasi yang baik sangat dibutuhkan untuk menyampaikan
poin-poin pentingnya secara efektif pada semua orang yang berkepentingan.

70 01 02 VT
Hal
5 - 29
Gambar Data Science Process (a.k.a the O.S.E.M.N. framework)
https://towardsdatascience.com/5-steps-of-a-data-science-project-lifecycle-26c50372b492
Gambar 1.1 Proses-proses dalam data science

(https://www.tutorsindia.com/blog/data-science-an-overview-and-its-applications/)
Beberapa tahapan yang dapat dilakukan untuk membangun aplikasi data science antara lain adalah analisis
kebutuhan, mendapatkan data, mengeksplorasi data, membuat model data, mengkomunikasikan dan
visualisasi hasil. Sebagaimana pengembangan perangkat lunak pada umumnya pengembangan aplikasi
data science membutuhkan team work yang menyediakan siklus hidup untuk menyusun pengembangan
projek. Team projek dapat menggunakan model-model siklus hidup data science seperti TDSP, CRISP-DM,
KDD, atau dapat mengembangkan proses sesuai dengan kebutuhannya sendiri.
1.1.7. Model Projek Data Science

a. Team Data Science Process
Beberapa model siklus hidup ilmu data yang dapat digunakan antara lain adalah: TDSP, CRISP-DM, KDD,
atau dapat mengembangkan proses sesuai dengan kebutuhannya sendiri. Team Data Science Process
(TDSP) adalah metodologi ilmu data yang gesit dan berulang (agile-Incremental) untuk memberikan solusi
analitik prediktif dan aplikasi cerdas secara efisien. TDSP membantu meningkatkan kolaborasi dan
pembelajaran tim dengan menyarankan bagaimana peran tim bekerja dengan kerja bersama yang terbaik.
TDSP mencakup praktik, struktur terbaik dari Microsoft dan pemimpin industri lainnya untuk membantu
keberhasilan implementasi inisiatif ilmu data. Tujuannya adalah membantu perusahaan sepenuhnya
menyadari manfaat dari program analitik mereka.

70 01 02 VT
Hal
6 - 29
b. Komponen utama dari TDSP
TDSP memiliki komponen kunci antar lain: 1) Definisi siklus hidup ilmu data, 2) Struktur proyek standar, 3)
Infrastruktur dan sumber daya yang direkomendasikan untuk proyek ilmu data, 4) Alat dan utilitas yang
direkomendasikan untuk eksekusi proyek
c. Siklus Hidup TDSP

TDSP menyediakan siklus hidup untuk menyusun pengembangan proyek ilmu data. Siklus hidup
menguraikan langkah-langkah penuh, diikuti oleh proyek yang berhasil. Jika tim proyek menggunakan
model CRISP-DM, KDD, atau proses yang dikustom organisasi sendiri, maka masih dapat menggunakan
TDSP berbasis tugas dalam konteks siklus hidup pengembangan tersebut. Pada tingkat tinggi, metodologi
yang berbeda ini memiliki banyak kesamaan.
Siklus hidup ini telah dirancang untuk proyek ilmu data yang dikirimkan sebagai bagian dari aplikasi
cerdas. Aplikasi ini menggunakan pembelajaran mesin atau model kecerdasan buatan untuk analisis
prediktif. Proyek ilmu data eksplorasi atau proyek analisis improvisasi juga dapat memperoleh manfaat
dari menggunakan proses ini. Siklus hidup menguraikan tahap-tahap utama yang biasanya dijalankan oleh
proyek, seringkali secara berulang yang meliputi : - Pemahaman Bisnis, - Akuisisi dan Pemahaman Data, -
Pemodelan dan - Penyebaran
Gambar Keterkaitan antara Big Data, Data Science dan Artificial intelegency
https://docs.microsoft.com/id-id/azure/architecture/data-science-process
Artefak tujuan, tugas, dan dokumentasi untuk setiap tahap siklus hidup di TDSP dijelaskan dalam
topik siklus hidup Proses tim Ilmu Data. Tugas dan artefak ini dikaitkan dengan peran proyek meliputi : -
Arsitek solusi, - Manajer proyek, - Insinyur data, - Ilmuwan data, - Pengembang aplikasi, - Memimpin
proyek. Diagram berikut memberikan tampilan kisi tugas (biru) dan artefak (hijau) yang terkait dengan
setiap tahap siklus hidup (pada sumbu horizontal) untuk peran ini (pada sumbu vertikal).
Templete Struktur folder proyek mengatur file yang berisi kode untuk eksplorasi data, ekstraksi fitur,
dan iterasi model rekaman. Template ini memudahkan anggota tim untuk memahami pekerjaan yang
dilakukan oleh orang lain dan menambahkan anggota baru ke tim. Sangat mudah untuk melihat dan
memperbarui template dokumen dalam format penurunan harga. Tim dapat menggunakan template untuk
menyediakan daftar periksa dengan pertanyaan kunci untuk setiap proyek. Hal ini dapat memastikan
bahwa masalah didefinisikan dengan baik dan bahwa hasil memenuhi kualitas yang diharapkan

70 01 02 VT
Hal
7 - 29
Gambar Alur proses pada setiap tahapan siklus Hidup TDSP
Contoh templete Struktur file proyek dapat didownload melalui tautan atau scan barcode berikut:
https://github.com/Azure/Azure-TDSP-ProjectTemplate
d. Infrastruktur dan sumber daya untuk proyek ilmu data

TDSP memberikan rekomendasi untuk mengelola analitik bersama dan infrastruktur penyimpanan seperti:
1) sistem file cloud untuk menyimpan himpunan data, 2) database, 3) kluster data besar (SQL atau Spark)
dan 4) layanan pembelajaran mesin.
Gambar Team work pada multiple project dan infrastruktur komponen cloud analitics
https://docs.microsoft.com/id-id/azure/architecture/data-science-process

70 01 02 VT
Hal
8 - 29
Infrastruktur analitik dan penyimpanan, tempat kumpulan data mentah akan diproses disimpan, mungkin
berada di cloud atau lokal. Infrastruktur ini memungkinkan analisis yang dapat direproduksi. Hal Ini akan
menghindari duplikasi, yang dapat menyebabkan inkonsistensi dan biaya infrastruktur yang tidak perlu.
Alat disediakan untuk menyediakan sumber daya bersama, melacaknya, dan memungkinkan setiap
anggota tim untuk terhubung ke sumber daya tersebut dengan aman. Hal Ini juga merupakan praktik
terbaik untuk membuat anggota proyek menciptakan lingkungan komputasi yang konsisten. Anggota tim
yang berbeda dapat mereplikasi dan memvalidasi eksperimen. Berikut adalah contoh tim yang
mengerjakan beberapa proyek dan berbagi berbagai komponen infrastruktur analitik cloud.
1.1.8. Profesi Data Scientist, Deskripsi Pekerjaan dan Kualifikasinya

Deskripsi pekerjaan data scientist biasanya meminta seseorang untuk dapat mendukung produk,
kepemimpinan, dan kampanye pemasaran dengan wawasan dari analisis data. Orang yang bekerja di balik
posisi data science ini biasanya diharapkan untuk bisa bekerja dengan sekumpulan data agar dapat
menemukan cara demi meningkatkan efektivitas kerja perusahaan. Terdapat Tiga kelompok data scientist
dilihat dari tingkat pengalamannya, yaitu: 1) Data Scientist Tingkat Awal, 2)Data Scientist Junior dan 3) Data
Scientist Senior. Deskripsi pekerjaan dan kualifikasinya dapat dilihat melalui tautan atau barcode berikut:
https://id.bitdegree.org/tutorial/deskripsi-pekerjaan-data-scientist/
1.2. Data dalam Data science

1.2.1. Pengertian:
Data adalah merupakan sekumpulan keterangan atau fakta yang dibuat dengan simbol, angka, kata-kata,
maupun kalimat. Data tersebut diperoleh lewat sebuah proses pencarian serta pengamatan yang tepat
berdasarkan sumber-sumber tertentu. Data juga merupakan suatu kumpulan deskripsi/keterangan dasar
yang berasal dari obyek maupun kejadian. Sifat data masih mentah, seseorang yang membaca dan
melihatnya belum dapat memperoleh suatu informasi yang utuh. Selanjutnnya data tersebut dapat diolah
menjadi bentuk lainnya yang lebih kompleks, baik itu berupa database, informasi, dan lain sebagainya.
Munculnya Data science sebagai bidang yang berbeda dari statistik dapat ditelusuri dengan melihat sejarah
big data. Pada awal era internet mulai muncul, para ilmuwan mengidentifikasi perlunya mengelola dataset
besar-besaran yang akan muncul dengan prevalensi penggunaan internet. Dengan penyebaran situs web
dan jejaring sosial, kumpulan data besar muncul dan tugas mengelola data besar secara efektif tercapai
sekitar tahun 2010.
Gambar Ragam jenis Data

70 01 02 VT
Hal
9 - 29
"Big data adalah kumpulan besar data yang dapat dibagikan dan berasal dari segala jenis sumber digital
pribadi atau publik. Kumpulan data dapat mewakili berbagai sumber untuk penemuan, analisis, dan
Intelijen serta Peramalan Bisnis yang sedang berlangsung,"
1.2.2. Ragam Jenis Data

a. Data Terstruktur
Data terstruktur adalah data yang berada dalam satu tempat baik berbetuk sebuah file termasuk data
yang berada dalam database ataupun spreadsheet. Data ini dapat diproses, disimpan, dan diambil
dalam format tetap. Data terstruktur ini yang membuat model data. Contohnya: data CRM, Industry
Research Data, data penjualan pada suatu perusahaan. Ciri cirinya: - Memiliki organisasi/keteraturan
data, - Mudah dicari dan dianalisis, - berada pada DBMS atau format file tertentu.
Gambar contoh data terstruktur tabel data penjualan
b. Data Tidak terstruktur

Data Tidak Terstruktur merupakan data yang tidak memiliki bentuk atau struktur khusus, tidak mudah
diklasifikasi dan dimasukan kedalam sebuah tempat dengan rapi. Contohnya adalah foto, gambar
grafis, video, suara, streaming instrument data, webpages, pdf, PowerPointpresentations, konten blog
dan lain sebagainya. Karakteristiknya adalah: - Tidak memiliki organisasi/keteraturan data baku, - Tidak
mudah dicari dan dianalisis
c. Data semi-terstruktur
Data Semi-Terstruktur merupakan bentuk data yang berisi format data terstruktur dan data tidak
terstruktur. Data Semi-Terstruktur merujuk pada data yang belum diklasifikasikan di bawah repositori
tertentu (database), namun mengandung informasi penting yang memisahkan elemen individu dalam
data. Contohnya, data dalam bentuk file .json atau .xml.
Gambar contoh data unstruktur dan data semi-terstruktur

70 01 02 VT
Hal
10 - 29
1.2.3. Hirarki data dan data set
Data set adalah koleksi atau kelompok data-data yang berkaitan, dikumpulkan dan disimpan pada tempat
yang sama, sekelompok record data yang sama dan saling terhubung dalam memori komputer.
Sekumpulan data dapat ditampilkan dalam suatu tabel (kolom dan baris). Dimensi kolom terdiri dari
atribute/feature dan class/label/target. Sedangkan dimensi baris berupa kumpulan record/object
/sample/tuple.
a. Feature/atribute
Atribut/feature mewakili variabel independen. Dalam dataset tabular, baris mewakili observasi dan kolom
mewakili fitur. Fitur juga secara kolektif disebut sebagai dimensi. Atribute terdiri dari numerical dan
categorical. Ciri ciri Fitur Kategoris adalah: - dapat mengambil salah satu dari sejumlah nilai diskrit dengan
nama atau label, - Nilai fitur kategorikal tidak memiliki urutan (ordered), - Jenis kelamin adalah contoh
atribut kategoris yang hanya dapat mengambil satu dari dua nilai, - data bersifat ordinal tidak memiliki
susunan hirarkis misal suasana hati, peringkat kepuasan , - data bersifat nominal tidak memiliki hirarkis
(misal: tipe darah, warna mata, jenis anjing). Ciri ciri Fitur Numerik adalah: • Dapat mengambil nilai
numerik apa pun, • fitur numerik memiliki urutan matematis,• fitur numerik bersifat diskrit pilihan
terbatas: misalnya jumlah orang, jumlah kamar, • fitur numerik bersifat terus menerus(continuous) pilihan
tidak terbatas misalnya: nilai suhu
Gambar Hirarki data dalam data science/data mining
b. Class/label/target
Class/label adalah atribut yang akan dijadikan target. label adalah variabel yang dipelajari oleh
pembelajaran mesin untuk diprediksi yang terdiri:
• label kategoris: mis, kategori artikel berita adalah label kategoris
• label numerik: misalnya, harga adalah label numerik
Gambar data set dalam data mining
1.2.4. Big Data

Big data adalah kumpulan proses yang terdiri volume data dalam jumlah besar yang terstruktur maupun
tidak terstruktur dan digunakan untuk membantu kegiatan bisnis. Big data merupakan pengembangan dari
sistem database pada umumnya (DBMS). Perbedaannya adalah pada tiga parameter (3V) yaitu proses

70 01 02 VT
Hal
11 - 29
kecepatannya (velocity), ukuran data (volume), dan jenis data (variety) yang tersedia. Big data memiliki
kecepatan lebih tinggi, volume dan jenis datanya lebih banyak dan bervariatif daripada DBMS.
Parameter
Dua parameter(2V) lainnya yang menjadi parameter dalam menjelaskan big data yaitu Value dan Veracity.
Value merupakan nilai atau aliran data yang tidak teratur dan konsisten dalam beberapa kondisi dan
periode. Hal tersebut dapat terjadi pada suatu kasus dimana terdapat lonjakan data yang besar sehingga,
akan memproses data dengan resource memori yang lebih besar. Veracity merupakan bentuk pembenaran
suatu data. Mengacu pada kualitas data tersebut, maka dapat berasal dari berbagai sumber. Perlu adanya
proses untuk menghubungkan dan mengkorelasikan beberapa hubungan data. Jika tidak ada relasi yang
baik, maka dapat menimbulkan kontrol yang lepas kendali.
1.3. Data Mining

1.3.1. Pengertian
Data mining merupakan bagian dari Data Science, yaitu proses pengumpulan informasi untuk melihat pola
dari kumpulan data yang sangat besar dan data discovery. Data mining memiliki fokus untuk mengekstrak
pola dari data dengan menggunakan metode statistika agar dapat dianalisa. Hasil dari analisa ini akan
digunakan untuk mencari prediksi yang tepat agar dapat digunakan untuk mengambil keputusan.
Data mining adalah merupakan proses atau "aplikasi algoritme khusus untuk mengekstraksi pola dari data"
yang berpotensi bernilai dan disimpan dalam kumpulan data, algoritme pembelajaran mesin tanpa
pengawasan. Aplikasi utama adalah teks mining di lingkungan data yang besar meliputi: 1. Penguraian teks
(text parsing), 2. Analisis sentiment, 3.Opinion mining, 4. Pemrosesan bahasa alami dengan algoritma deep
learning algoritm. Deep learning adalah proses, seperti data mining, yang menggunakan arsitektur jaringan
saraf dalam (saraf arsitektur jaringan dengan beberapa lapisan tersembunyi), yang merupakan jenis
tertentu dari algoritma pembelajaran mesin dan untuk memesahkan masalah
Gambar Tahapan utama Data mining

70 01 02 VT
Hal
12 - 29
Gambar Tahapan model Knowladge Discovery Database
1.3.2. Pra-proses Data

Data preprocessing adalah proses yang mengonversi data mentah menjadi format yang dapat dipahami.
Data pada dunia nyata sering tidak memadai, tidak konsisten, tidak teratur, kurang/tidak mengikuti
pola/tren tertentu. Hal ini mengakibatkan kualitas pengumpulan data rendah dan model yang dihasilkan.
a. Data Cleaning
Proses ini adalah suatu proses untuk mengatasi missing value, penanganan noisy data, identifikasi
atau menghapus outlier, penanganan data yang inkonsisten
b. Data Integration
Proses ini akan mengintegrasi beberapa sumber data
c. Data Transformation
Normalisasi data, diskritisasi, penyeragaman nilai data, agregasi atau bahkan split atribut
d. Data Reduction
Proses ini adalah proses yang akan mereduksi dimensi atau menyeleksi atribut
1.4. Artificial Intelegency

1.4.1. Pengertian
Kecerdasan Buatan (Artificial Intelligence) adalah bidang ilmu yang mempelajari bagaimana mesin dapat
berfikir seperti manusia, berfikir rasional, bertindak seperti manusia, dan bertindak rasional. AI beroperasi
dengan suatu algoritma yang memungkinkannya menganalisis data dalam jumlah besar, memproses data
secara cepat dan berulang, dan mempelajari pola data secara otomatis.
1.4.2. Prinsip Kerja AI
Mesin kecerdasan buatan akan menganalisis data dalam jumlah besar (big data). Pemrosesan datanya akan
dilakukan dalam satu waktu, secara cepat dan berulang. Mesin ini juga bisa mempelajari pola dan fitur data
secara otomatis karena menggunakan intelligence algorithm.
1.4.3. Sub Bidang dan Teknologi Penunjang AI
Kecerdasan buatan merupakan bidang studi yang sangat luas. Ada beberapa sub bidang utama yang
membentuk konsep ini, di antaranya:
• Machine learning, untuk membuat model analitik menjadi otomatis.

70 01 02 VT
Hal
13 - 29
• Neural network, untuk mengklasifikasikan pola. Caranya dengan memetakan pola dari input dan
menjabarkannya jadi suatu pola baru di output.
• Deep learning, untuk menganalisis data secara terus menerus menggunakan struktur logika seperti
pada saat manusia mengambil keputusan. Pengaplikasiannya secara umum misalnya pada fitur image
recognition dan speech recognition.
• Cognitive computing, untuk membuat mesin mampu mensimulasikan proses kerja manusia secara
natural.
• Computer vision, untuk menganalisis suatu gambar di hadapannya, mendapatkan informasi dari hal
itu, kemudian merumuskannya jadi suatu perintah.
• Natural Language Processing (NLP), untuk menghubungkan manusia dan mesin dengan bahasa sehari-
hari. Hal itu memungkinkan mesin memberi respon sesuai perintah yang manusia ucapkan.
Gambar bidang-bidang yang terkait untuk penerapan Artificial Intelegency
Konsep kecerdasan buatan juga terdiri dari banyak teori, metode maupun teknologi. Berikut ini adalah
beberapa teknologi yang berperan dalam mengaktifkan dan mendukung suatu sistem kecerdasan buatan.
• Graphical Processing Unit, mendukung sistem kecerdasan buatan dalam menyediakan daya komputasi
yang besar. Daya komputasi besar akan menunjang pemrosesan data secara berulang.
• Internet of Things, menjadi sumber data. Bisa menghasilkan data dalam jumlah besar melalui setiap
perangkat yang terhubung.
• Advanced algorithm, mampu menganalisis data lebih banyak dan lebih cepat. Target akhirnya supaya
bisa memahami sistem yang kompleks, mengidentifikasi dan memprediksi suatu peristiwa langka, dll.
Hal ini masih terus dikembangkan dan dikombinasikan dengan berbagai metode baru.
• Application programming interfaces, merupakan suatu paket kode portable. Paket kode tersebut bisa
menambah fungsionalitas kecerdasan buatan ke suatu sistem atau software. Contohnya menerapkan
fitur face recognition pada kamera keamanan.
1.5. Mechine Learning

1.5.1. Pengertian
Machine Learning merupakan bagian dari AI. Machine Learning digunakan agar sistem komputer dapat
melakukan proses pembelajaran dengan sendirinya secara otomatis tanpa diberi intruksi pemrograman
terlebih dahulu serta dapat meningkatkan keakuratan hasil prediksi. Umumnya penggunaan machine
lerning bersifat realtime.

70 01 02 VT
Hal
14 - 29
1.5.2. Istilah-istilah dalam mechine learning
Sistem berbasis pembelajaran mesin (mechine learning) tidak diprogram secara eksplisit tetapi dipelajari
dari data. Algoritma pembelajaran mesin menyimpulkan pola dan hubungan antara variabel yang berbeda
dalam dataset kemudian menggunakan pengetahuan itu untuk menggeneralisasi di luar pelatihan Dataset.
Istilah yang digunakan dalam konteks pembelajaran mesin adalah: 1) Data mining (Penambangan data), 2)
Fitur, 3) Label, 4) Model, 5) Akurasi dan 6) Presisi
a. Model
Model adalah konstruksi matematis untuk menangkap pola dalam kumpulan data dan memperkirakan.
Model merupakan hubungan antara variabel terikat dan variabel bebas. Model memiliki kemampuan
prediktif dan dapat menghitung atau memprediksi nilai untuk variabel dependen ketika mendapatkan
nilai-nilai variabel independen. Melatih model adalah tugas komputasi intensif, sementara
menggunakannya tidak intensif komputasi. Sebuah model umumnya disimpan ke disk, sehingga dapat
digunakan tanpa melatih mesin lagi. Data Pelatihan (80% dari data) adalah data yang digunakan oleh
algoritme pembelajaran mesin untuk melatih model .Data Uji (20% dari data) adalah data yang
digunakan untuk mengevaluasi kinerja prediktif suatu mode
b. Akurasi dan presisi
Akurasi adalah seberapa dekat nilai yang diukur dengan nilai sebenarnya (benar). Presisi adalah
seberapa dekat nilai yang diukur satu sama lain
1.5.3. Jenis Machine Learning

Teknik-teknik yang digunakan dalam mesin learning antara lain adalah : 1) Supervised Learning, 2)
Unsupervised Learning, 3) Semi-supervised Learning, 4)Reinforcement Learning

70 01 02 VT
Hal
15 - 29
1.5.4. Surpervised
Supervised Learning merupakan sebuah pemodelan dimana algoritmanya dapat membangkitkan suatu
fungsi yang memetakan input ke output yang diinginkan. Pada Supervised Learning pengguna mengolah
data yang memiliki label. Tujuan pengolahan adalah mengelompokkan data ke data yang sudah ada. Model
ini memerlukan data training. Data training digunakan dalam memprediksi maupun mengklasifikasi data.
Model ini dapat ditemukan pada kasus prediksi harga saham, klasifikasi pelanggan, klasifikasi gambar. Ciri
ciri mesin learning – Supervised: - Pembelajaran terbimbing, - Data memiliki output/label/target class, -
Memiliki fase training untuk mempelajari pemetaan antara input dan output (membentuk model), -
Kategori pekerjaan meliputi: klasifikasi, regresi, deteksi anomali , dan lainnya
algoritma-algoritma yang termasuk dalam Supervised Learning adalah : - Decision Trees, -KNN (K-Nearest
Neighbor), - Feature Extraction, -Naïve Bayes, - SVM (Support Vactor Machines), - Artificial Neural Network,
- Unsupervised Learning
1.5.5. Unsupervised
Unsupervised Learning merupakan sebuah pemodelan dimana algoritmanya memodelkan sekumpulan
input secara otomatis tanpa adanya panduan output yang diinginkan. Model ini mengolah data yang tidak
memiliki label, tujuannya adalah mengelompokkan suatu data yang hampir sama dengan data tertentu.
Model ini tidak membutuhkan data training dalam melakukan prediksi maupun klasifikasi. Ciri-ciri mesin
learning – Unupervised: - Pembelajaran tidak terbimbing, - Data tidak memiliki output/label/target class, -
Tidak memiliki fase training, algoritma bekerja untuk menemukan pola/hubungan pada data input, Kategori
pekerjaan meliputi: klusterisasi, asosiasi, demensionality reduction
Algoritma yang termasuk dalam Unsupervised Learning adalah: - K-means, - Hierarchical clustering, -
DBSCAN, - Fuzzy C-Means, -Self-Organizing Map
1.5.6. Algoritma Mesin Learning

a. Surpervised
▪ Classification
• Two Class Classification - Logistic Regression (Fast), - Decision Tree (Fast). - Decision
jungle(Accurate), - SVM (Accurate) (>100 features), - Boosted Decision Tree (Fast - Large
memory),- Bayes point machine (Fast)
70 01 02 VT
Hal
16 - 29
M A L A N G Python untuk Data Science Teknologi Informasi 19/05/2022 Abd Munif, Eko. S
• Multi Class Classification: - Decision Tree (Fast), - Logistic Regression (Fast), - Random Forest
(Accurate), - Gradient Boosting Tree (Accurate), - Naive Bayes (Big Data), - Decision
jungle(Accurate)
▪ Regression: - Linear Regression (Fast), - Decision Tree (Fast), - Random Forest (Accurate), - Gradient
Boosting Tree (Accurate), - Ordinal regression, - Bayesian linear regression, -Boosted Decision Tree
(Fast – Large memory), - SGD Regressor (<100K rows), - Lasso/ ElasticNet (Few Features), -
RidgeRegression, - SVR(kernel=linear/ rbf), - EnsembleRegressors
▪ Anomaly Detection: - One Class SVM (support vector machine), - PCA based Anomaly Detection, -
Time Series Anomaly Detection
▪ Text Analytics (Supervised Learning): - Named Entity Recognition - Sentimental Analysis
b. Unsupervised
• Clustering: - K-means Clustering,- K-modes (Categorical variables), - DBScan (predict the number of
clusters automatically),- OPTICS (predict the number of clusters automatically)
• Association: -Apriori
• Dimension Reduction: - PCA, - Singular value decomposition,
• Recommendation: - Matchbox Recommender
• Computer Vision: - OpenCV Library
1.5.7. Tasks on Machine Learning

a. Classification (Supervised Learning)
Task ini digunakan untuk menemukan model dari data pembelajaran (training set) yang terdiri dari
atribut dan kelas target (nilai kategorikal). Klasifikasi berkaitan dengan membangun model yang
memisahkan data ke dalam kelas yang berbeda. Model ini dibangun dengan memasukkan satu set data
pelatihan yang kelasnya telah diberi label sebelumnya agar algoritme dapat dipelajari. Kemudian Model
tersebut digunakan dengan memasukkan dataset yang berbeda yang kelasnya ditahan, memungkinkan
model untuk memprediksi mereka keanggotaan kelas berdasarkan apa yang telah dipelajari dari set
pelatihan. Contoh klasifikasi biner (membagi data menjadi dua opsi saja): • penyaringan spam adalah
tugas klasifikasi, • Diagnosis tumor dapat diperlakukan sebagai masalah klasifikasi. • menentukan risiko
kredit menggunakan informasi pribadi seperti pendapatan, hutang yang belum dibayar
Contoh klasifikasi multi-kelas: • pengenalan tulisan tangan setiap karakter adalah masalah klasifikasi
multi-kelas, • pengenalan gambar adalah tugas klasifikasi multi-kelas, • Xbox Kinect360, yang
menyimpulkan bagian tubuh dan posisi
b. Forecasting (Supervised Learning)

Task ini untuk menemukan model dari data pembelajaran (training set) yang terdiri dari atribut dan
kelas target (nilai numerik, kontinyu)

70 01 02 VT
Hal
17 - 29
c. Clustering [unsupervised learning]
Model ini digunakan untuk membagi dataset menjadi sejumlah cluster atau segmen tertentu, elemen
dalam cluster yang sama atau lebih mirip satu sama lain daripada yang ada dicluster lainnya. Task ini
digunakan untuk mengelompokkan sejumlah data berdasarkan kemiripan nilai atribut yang dimiliki
dataset dan mendeteksi kluster potensial yang berguna dari data input. Pengelompokan Algoritma: 1)
k-means : -Jumlah cluster (k) harus diberikan secara eksplisit, - Identifikasi pusat k cluster terbaik secara
iteratif, - Cluster diasumsikan berbentuk bola.
2) OPTIK / DBSCAN: - ini adalah algoritma pengelompokan berbasis kepadatan. mewakili cluster
berdasarkan sifatnya, Contoh: menciptakan segmen pelanggan, yang dapat ditargetkan dengan
program pemasaran yang berbeda
d. Regresi [ supervised learning]

Regresi adalah suatu metode analisis statistik yang digunakan agar dapat melihat pengaruh antara dua
variabel atau lebih. Hubungan variabel yang dimaksud bersifat fungsional yang diwujudkan dalam
bentuk model matematis. Pada analisis regresi, variabel dibagi menjadi dua jenis yaitu variabel respons
atau biasa disebut variabel bergantung dan variabel bebas atau dikenal dengan istilah variabel
independen. Penerapan analisis regresi pada pembelajaran mesin mengaitkan data historis dan label
atau output yang saling berkaitan, tidak berdiri sendiri.
Analisis regresi dapat diaplikasikan untuk memprediksi harga rumah di masa mendatang, membutuhkan
data historis berupa seperti luas bangunan, tingkat lantai, adakah tol terdekat, mall terdekat dan
70 01 02 VT
Hal
18 - 29
M A L A N G Python untuk Data Science Teknologi Informasi 19/05/2022 Abd Munif, Eko. S
sebagainya.Tujuannya analisis regresi dalam mesin learning adalah untuk memprediksi label numerik
dan pengamatan yang tidak berlabel. Algoritma regresi: Regresi linier, Pohon keputusan. Contoh
penerapannya adalah: • penilaian rumah, • Perdagangan aset, dan perkiraan, • Perkiraan penjualan
atau inventari
e. Association [unsupervised learning]

Asosiasi adalah pembelajaran mesin yang dilakukan dengan menerapkan aturan berbeda untuk
menemukan hubungan antara variabel dalam sebuah dataset. Analisis asosiasi sering digunakan untuk
pembangunan mesin rekomendasi, misal kolom rekomendasi barang berdasarkan pembelian atau
pencarian sebelumnya. Salah satu contoh penerapan assosiasi adalah analisis keranjang pasar, tugas ini
bersifat khas sudah dikenal yaitu:
• mencoba mengidentifikasi hubungan antara berbagai item yang telah dipilih oleh pembeli
tertentu dan ditempatkan di keranjang belanja dan memberikan dukungan dan ukuran
kepercayaan untuk perbandingan.
• Nilainya terletak pada analisis lintas pemasaran dan perilaku pelanggan.
1.5.8. Algoritma mechine learning

a. Decision Tree
Decision tree adalah algoritma supervised learning yang merepresentasikan input sebagai vector dari
atribut dan mengembalikan “keputusan” atau “decision” sebagai output. Tujuannya adalah untuk
membentuk model yang dapat memprediksi nilai dari variabel target/kelas target dengan mempelajari data
training sehingga terbentuk model berupa “aturan keputusan” atau “pohon keputusan”. Ide dari DT adalah
pilih atribut terbaik (mampu memisahkan target class) sebagai root node akar, lalu berdasarkan atribut
terpilih, pilih kembali atribut terbaik selanjutnya pada cabang yang dibentuk. Algoritma Decision Tree: ID3
(Iterative Dichotomizer3), C4.5, C5.0, CART (Classification dan Regression Trees), dll.

70 01 02 VT
Hal
19 - 29
Formulasi matematis algoritma decetion tree adalah sebagai berikut:
b. Naïve Bayes
Naïve Bayes adalah algoritma supervised learning yang menggunakan pendekatan probabilitas (teorema
Bayes) dengan asumsi “naïve” untuk probablitas kondisional yang tidak bergantung antara tiap nilai fitur.
Formula matematis dari Naïve Bayes adalah sebagai berikut:
Pada fase training, data digunakan untuk mendapatkan prior probability (P(c)) dan conditional probability
(Px|c). Probabilitas digunakan untuk menghitung posterior probability tiap kelas target dan didapatkan nilai
tertingginya “MAP (Maximum A Posterior)” atau disebut argument maksimum dari target class.
c. artificial neural network

Artificial neural network (ann) atau biasa disebut jaringan syaraf tiruan (jst) adalah algoritma dengan model
komputasi yang meniru dari cara kerja jaringan syaraf biologi pada manusia. Ann adalah jaringan dari
sekelompok unit pemroses kecil (perceptron) yang saling terhubung antara input dan output, menemukan
pola-pola pada data dan menyimpan bobot pada jaringan sebagai model

70 01 02 VT
Hal
20 - 29
1.5.9. Performanse Measure
a. Confusion Matrix
Confusion matrix adalah matiks yang digunakan untuk mengukur performa model klasifikasi jika
diberikan sejumlah data uji. Jumlah matrik bergantung pada kelas target yang diklasifikasi.
Beberapa parameter beserta Formulasi yang digunakan adalah:

• Accuracy = (TP+TN) / (TP+FP+FN+TN)
• Error Rate = (FP+FN) / (TP+FP+FN+TN)
• Precision = TP / (TP+FP)
• Recall = TP / (TP+FN)
• F- Measure = (2* Recall*Precision) / (Recall+ Precision)
b. MAD, MSE, MAPE
• Mean Absolute Deviation (MAD) : rata-rata dari nilai absolute simpangan
• Mean Squared Error (MSE) : rata-rata kuadratik error
• Mean Absolute Percentage Error (MAPE) : persentase rata-rata kesalahan absolut
c. Silhoutte Coeffision
Silhouette Coefficient adalah matiks yang digunakan untuk mengukur performa dari teknik kluster. Rentang
nilai -1 sampai 1. Nilai 1: cluster terpisah dengan baik satu sama lain dan dibedakan dengan jelas. Nilai 0:
cluster indefferent, jarak antar cluster tidak signifikan. Nilai-1: cluster terkelompok dengan cara yang salah
1.6. Apa itu Rapid Miner

RapidMiner adalah platform perangkat lunak Data Science yang dikembangkan untuk menyediakan
lingkungan terintegrasi dalam proses data preparation (persiapan data), machine learning (pembelajaran
mesin), deep learning (pembelajaran mendalam), text mining (penambangan teks), dan analisis prediktif.

70 01 02 VT
Hal
21 - 29
Software ini dapat dimanfaatkan untuk bisnis-komersial, penelitian, pendidikan, pelatihan, rapid
prototyping, dan pengembangan aplikasi. Software ini mendukung semua langkah dalam proses
pembelajaran mesin termasuk persiapan data, hasil visualisasi, validasi model, dan optimasi. RapidMiner
dikembangkan pada model inti terbuka. RapidMiner Studio Free Edition terbatas untuk satu prosesor
logika dan 10.000 baris data, tersedia di bawah lisensi AGPL.
1.7. Apa yang dilakukan Oleh data Scientist

Eksplorasi data adalah bagian yang sangat penting dari setiap proyek ilmu data. Hal ini dapat membantu
memahami apa yang dapat disampaikan. Hal ini juga dapat menunjukkan potensi masalah dan peluang
serta memberikan ide untuk penyelidikan lebih lanjut dan hal-hal yang perlu dipertimbangkan. Pemahaman
data sangat penting sehingga memiliki ruang dalam langkah-langkah utama Proses Standar Lintas Industri
untuk Penambangan Data (CRISP-DM). Untuk memahami data dibutuhkan visualisasi data. Tahapan
“persiapan data” menuntut data sceintist harus memutuskan apakah perlu mengubah data dan bagaimana
mengubahnya
Metode CRISP-DM
1.8. Penugasan dan Eksplorasi

Buatlah kelompok diskusi terdiri dari dua atau tiga peserta. Diskusikan, jawab pertanyaan dan lakukan
langkah-langkah berikut berdasarkan referensi utama pada modul dan beberapa referensi tambahan.
1. Amati dan identifikasi model proses projek pengembangan data science meliputi TDSP, CRISP-DM,
KDD dan SEMMA. Parameter yang digunakan untuk menggambarkan model antara lain: deskripsi
model, model proses pengembangan perangkat lunak yang digunakan, artefak-artefak model
(tahapan,tugas,fungsi,aktor,dll), siklus hidup proses model, keuntungan, kelebihan.
2. Identifkasi deskripsi pekerjaan, kualifikasi, jenjang dan sertifikasi untuk data Scientist dan apa
perbedaannya dengan Data analist, data verifikator, mesin learning enginer
3. Kunjungi site-site berikut dan lakukan langkah-langkah sesuai petunjuk yang telah disediakan:
https://www.mladdict.com/

70 01 02 VT
Hal
22 - 29
4. Kunjungi site https://rapidminer.com/
5. Download dan Pasang Aplikasi Rapid miner, ekplorasi fitur-fitur canggih yang telah disediakan.
1.9. Lab 1 Pemrosesan data awal menggunakan RapidMiner

1.9.1. Mengimport data
a. Dari menu repository klik import data, cari file dataset: misal dataSet-jerry.csv (
b. Mengecek kesesuaian type data dengan datanya. Jika tidak cocok rubah type datanya sesuai
dengan data yang ditampilkan

70 01 02 VT
Hal
23 - 29
c. Menyimpan file dengan nama dataset-jerry simpan di local repository/data
d. Klik finish dan cek di list repositorinya
1.9.2. Me-retrieve dataset

a. Menambahkan operator retrieve pada lembar proses di design view.
b. menghubungkan operator retrieve dengan dataset yang telah diimportkan melalui panel
parameter. Pada repository entri- klik gambar folder dan cari file data set di local repository
c. Cara lain dapat dilakukan dengan drag file dataset dari panel repository dan drop di lembar
proses pada design view
d. menjalankan proses pada desian dan melihat hasilnya

70 01 02 VT
Hal
24 - 29
e. Klik statistik untuk melihat data statistik dari data set
f. Dari list data statistik dan tabel hasil retrieve Terdapat mising value pada beberapa atribute
1.9.3. Memperbaiki missing value

a. menambahkan operator replace missing values dan mengatur parameter parameternya. Atribute
filter type: singgle, atribute: online_game dan replenishment value: N

70 01 02 VT
Hal
25 - 29
b. Menjalankan proses pada design dan melihat hasilnya
1.9.4. Melakukan Data reduction (menghilangkan record pada missing value atribute
a. menambahkan filter example
b. mengatur parameter condition class dan parameter string seperti gambar. Hal ini untuk
menghilangkan mising value pada atribure Online_Shooping
c. menjalankan proses desian dan melihat hasilnya

70 01 02 VT
Hal
26 - 29
d. Pada atribut online shopping sudah tidak ada missing value. Data menjadi 9 record dua record
terlah dihapus
1.9.5. Melakukan Filter data Sampling secara random

a. menambahkan operator sample untuk mensumpling data set sejumlah 50%
b. menjalankan proses desain dan tampilkan hasilnya
1.9.6. Mengatasi data tidak konsisten

Data tidak konsisten dapat ditemukan pada atribute twitter dimana terdapat satu record yang berisi data
dengan nilai 99 sementara data lainnya adalah N atau Y
a. Buat desain proses dan pengaturan parameter pada operator replace seperti gambar berikut

70 01 02 VT
Hal
27 - 29
b. menjalankan desain proses dan lihat hasilnya
1.9.7. Melakukan data reductioan – select atribute

a. Memilih beberapa atribut yang tidak digunakan atau tidak terkait dengan model data.
b. Menambahkan operator select atribute, mengatur paremeter atribut filter type: subset, memilih
atribute yang akan digunakan, memindah atribute ke selectetd atribute

70 01 02 VT
Hal
28 - 29
c. menjalankan proses dan melihat hasilnya. Data sudah bersih tidak ada missing value dan tidak
inkonsisten data. Selanjutnya data telah siap untuk diproses selanjutnya.
2. DAFTAR PUSTAKA
VanderPlas, Jake, 2016, “Python Data Science Handbook Essential Tools for Working with Data”, O’Reilly
Media, Inc., 1005 Gravenstein Highway North, Sebastopol, CA 95472
Gatot Hari Priowirjanto, 2021, “Belajar Python untuk pemula, belajar memecahkan masalah sederhana
dalam Python lanjut”
Wahyono, Teguh, 2018,” Fundamental of Python for Machine Learning: Dasar-Dasar Pemrograman Python
untuk Machine Learning dan Kecerdasan Buatan”, Gava Media, Yogyakarta

70 01 02 VT
Hal
29 - 29

1-Bahan Bacaan Konsep, Prinsip Implementasi Data Science2

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

1-Bahan Bacaan Konsep, Prinsip Implementasi Data Science2

Diunggah oleh

Hak Cipta:

Format Tersedia

KEMENTERIAN PENDIDIKAN DAN KEBUDAYAAN

Modul Diklat UP/RESKILLING

Pemorgraman Python Untuk Data Science

BALAI BESAR PENGEMBANGAN

DAFTAR ISI .................................................................................................................................................... 2

BBPPV BOE Program Diklat: Level: Tanggal:

1.1. Data Science

1.1.4. Implementasi data science

BBPPV BOE Program Diklat: Level: Tanggal:

1.1.5. Desiplin Ilmu yang terkait dengan Data Science

BBPPV BOE Program Diklat: Level: Tanggal:

1.1.6. Prinsip Kerja Data science

BBPPV BOE Program Diklat: Level: Tanggal:

Gambar 1.1 Proses-proses dalam data science

1.1.7. Model Projek Data Science

BBPPV BOE Program Diklat: Level: Tanggal:

c. Siklus Hidup TDSP

BBPPV BOE Program Diklat: Level: Tanggal:

d. Infrastruktur dan sumber daya untuk proyek ilmu data

BBPPV BOE Program Diklat: Level: Tanggal:

1.1.8. Profesi Data Scientist, Deskripsi Pekerjaan dan Kualifikasinya

1.2. Data dalam Data science

Gambar Ragam jenis Data

BBPPV BOE Program Diklat: Level: Tanggal:

1.2.2. Ragam Jenis Data

Gambar contoh data terstruktur tabel data penjualan

b. Data Tidak terstruktur

Gambar contoh data unstruktur dan data semi-terstruktur

BBPPV BOE Program Diklat: Level: Tanggal:

Gambar Hirarki data dalam data science/data mining

Gambar data set dalam data mining

1.2.4. Big Data

BBPPV BOE Program Diklat: Level: Tanggal:

1.3. Data Mining

Gambar Tahapan utama Data mining

BBPPV BOE Program Diklat: Level: Tanggal:

1.3.2. Pra-proses Data

1.4. Artificial Intelegency

BBPPV BOE Program Diklat: Level: Tanggal:

Gambar bidang-bidang yang terkait untuk penerapan Artificial Intelegency

1.5. Mechine Learning

BBPPV BOE Program Diklat: Level: Tanggal:

Gambar bidang-bidang yang terkait untuk penerapan Artificial Intelegency

1.5.3. Jenis Machine Learning

Gambar bidang-bidang yang terkait untuk penerapan Artificial Intelegency

BBPPV BOE Program Diklat: Level: Tanggal:

1.5.6. Algoritma Mesin Learning

1.5.7. Tasks on Machine Learning

b. Forecasting (Supervised Learning)

BBPPV BOE Program Diklat: Level: Tanggal:

d. Regresi [ supervised learning]

e. Association [unsupervised learning]

1.5.8. Algoritma mechine learning

BBPPV BOE Program Diklat: Level: Tanggal:

c. artificial neural network

BBPPV BOE Program Diklat: Level: Tanggal:

Beberapa parameter beserta Formulasi yang digunakan adalah:

1.6. Apa itu Rapid Miner

BBPPV BOE Program Diklat: Level: Tanggal:

1.7. Apa yang dilakukan Oleh data Scientist

1.8. Penugasan dan Eksplorasi

BBPPV BOE Program Diklat: Level: Tanggal:

1.9. Lab 1 Pemrosesan data awal menggunakan RapidMiner