Pengantar Big Data dan Data Science
Pengantar Big Data dan Data Science
BIG DATA
UNIVERSITAS RAHARJA
TANGERANG
2023
1
MODUL I : PENGANTAR BIG DATA / DATA SCIENCE PENGANTAR
DATA SCIENCE
1. Tujuan
a. Mahasiswa mengetahui Data Science
b. Mahasiswa dapat mengidentifikasi proses dalam Data Science
c. Mahasiswa dapat menganalisa peluang dan tantangan bidang
Data Science
2. Landasan Teori
Pengantar Data Science
Sains data (Data Science) merupakan bidang ilmu yang mengalami
popularitas dam berkembang sangat pesat. Beberapa tahun yang lalu, para praktisi
ataupun orang awam mengenal istilah “data mining” dan “predictive analytics”
dibandingkan dengan istilah sains data (Data Science). Berdasarkan perkembangan
teknologi atau revolusi industry seperti saat ini, ditambah dengan meningkatnya
pengguna smartphone, internet dan social media, menyebabkan pertambahan data
dan pertumbuhan data yang sangat signifikan dari aktivitas dalam jaringan. Kondisi
yang dipicu dengan adanya perkembangan teknologi dari bidang sains data yang
merupakan terobosan dan perluasan dari bidang ilmu yang mempelajari tentang
data ataupun statiskan. Revolusi industri/teknologi mendukung adanya kebutuhan
untuk menyimpan, memproses serta menganalisis beragam data dengan jumlah
yang sangat besar (big data).
Selain itu, volume data dan variasi data menuntut organisasi untuk bereaksi
bagaimana cara pandang terkait pola dan hubungan yang terdapat dalam suatu
kumpulan data dalam kepentingan untuk meningkatkan nilai tambah bagi bisnis
perusahaan. Apabila kita memiliki sebuah data namun tidak memiliki esensi tertentu
dan tidak adanya keberlanjutan dalam pengolahan, data tersebut hanya tersimpan
tanpa adanya tindak lanjut. Sains data menafsirkan kajian yang lebih luas sekaligus
menjadi dasar dalam setiap pengambilan keputusan yang berbasiskan data. Secara
konsep dan dasar, sains data merupakan bidang ilmu yang mempelajari bagaimana
melakukan ekstrasi sebuah value atau informasi yang terpusat dalam kumpulan
data. Sains data, digunakan untuk menemukan pola dan hubungan yang terdapat
2
dalam sebuah data. Penggunaan istilah sains menunjukan bahwa metode ini
didasarkan pada sebuah evidence based (bukti) dan empirical knowledge (bersifat
empiris). Sains data pun dikenal sebagai teknik dalam menemukan sebuah informasi
dan pengetahuan baru dari suatu data. Bidang ilmu sains data dibutuhkan bagi
setiap individu maupun kelompok yang melibatkan proses penyimpanan dan
pengolahan data dalam kegiatan bisnisnya. Berdasarkan pengumpulan
data/informasi penting sebuah data akan melakukan ekstraksi penting terkait
informasi yang diperlukan. Dalam proses ekstraksi tersebut sains data
membutuhkan dukungan dari multidiscipline knowledge (bidang ilmu lain) seperti
basis data, rekayasa data (data engineering), visualisasi data dan kecerdasan
bisnis (business intelligence).
Sains data, kerap erat dikaitkan dengan topik artificial intelligence, machine
learning dan deep learning. Namun, ketiga bidang ilmu ini memiliki karakteristik dan
penggunaan yang berbeda sesuai dengan konteksnya. Artificial intelligence
berperan dalam memberikan sebuah kemampuan kognitif seperti bagaimana
berperilaku layaknya manusia. Sebagai contoh mesin dilengkapi dengan
kemampuan dalam mengenali suatu objek atau benda di sekitarnya dan
mengoperasikan setiap fungsi secara otomatis. Pembelajaran mesin (machine
learning) adalah bagian dari bidang ilmu kecerdasan buatan. Teknik machine
learning dapat memberikan mesin sebuah kemampuan khusus untuk belajar dari
sebuah pengalaman. Pengalaman di sini dapat diartikan sebagai sebuah data. Data
yang digunakan untuk mengajari sebuah mesin disebut dengan istilah data latih
(training data). Di sisi lain, data science muncul sebagai aplikasi bisnis dari
pembelajaran mesin, kecerdasan buatan, dan berbagai macam bidang ilmu lainnya
seperti statistika dan matematika. Dengan kata lain, data science merupakan bidang
ilmu yang bersifat transdisiplin dan digunakan untuk menunjang kegiatan bisnis
suatu perusahaan. Proses sains data (data science process) merupakan inti dari
bidang ilmu sains data di mana digunakan untuk menemukan pola dan hubungan
dari suatu kumpulan data. Proses data science adalah serangkaian kegiatan yang
dilakukan secara berulang yang terdiri atas: (1) pemahaman masalah, (2) persiapan
sampel data, (3) pembangunan model, (4) pengaplikasian model kepada dataset
untuk melihat hasil keluaran, dan (5) penyebaran dan pemeliharaan model. Salah
satu kerangka kerja terkemuka yang digunakan dalam proses data science adalah
Cross Industry Standard Process for Data Mining (CRISP-DM). Contoh kerangka
3
kerja lainnya dalam proses data science adalah Sample, Explore, Modify, Model,
and Assess (SEMMA) yang dikembangkan oleh institusi SAS, Define, Measure,
Analyze, Improve, and Control (DMAIC), dan The Selection, Preprocessing,
Transformation, Data Mining, Interpretation, and Evaluation yang digunakan untuk
menemukan pengetahuan baru dalam basis data. Namun, CRISP-DM (terlihat pada
Gambar. 1) adalah kerangka kerja yang paling banyak digunakan untuk
mengembangkan solusi berbasiskan data. Proses ekstraksi informasi dan
pengetahuan dari sebuah data dalam proses sains data bersifat iteratif, yaitu
langkah-langkah yang bersifat non-linier dan membutuhkan banyak perulangan.
Terkadang dibutuhkan adanya hubungan dua arah pada setiap tahapan dan kembali
ke tahapan pertama untuk mendefinisikan kembali pernyataan masalah.
4
A. EKSTRAKSI POLA
Bidang ilmu data science sangat erat kaitannya dengan penemuan
pengetahuan baru (knowledge discovery) dalam suatu basis data penemuan
pengetahuan dalam basis data merupakan proses yang tidak mudah untuk
dilakukan dan melibatkan sebuah aktivitas dalam menemukan pola dan hubungan
dari suatu data guna pengambilan keputusan yang bersifat valid. Salah satu aspek
utama dari data science adalah proses generalisasi, yaitu proses dalam membentuk
kesimpulan dari suatu data.
5
C. TRANSDISIPLIN
Data science merupakan bidang ilmu yang bersifat transdisiplin di mana
dibentuk melalui penggabungan dari berbagai bidang ilmu seperti statistika,
matematika, dan ilmu rekayasa. Integrasi bidang ilmu tersebut berguna dalam
memudahkan proses ekstraksi informasi dari kumpulan data yang berukuran sangat
besar (big data). Seseorang yang memiliki kemampuan transdisiplin tersebut disebut
dengan ilmuwan data (data scientist), yaitu seorang profesional yang memiliki
keahlian dalam mengolah dan meng- analisis data yang berukuran sangat besar
untuk memberikan solusi dari suatu permasalahan. Kemudian, algoritma yang
digunakan dalam data science pada umumnya juga berasal dari disiplin ilmu lain
seperti pembelajaran mesin (machine learning). Di sisi lain, untuk memudahkan
dalam mengelola data yang berukuran sangat besar, seorang data scientist
membutuhkan pengetahuan basis data dan komputasi yang mumpuni. Kunci
kesuksesan dari data science juga terletak pada pemahaman tentang data dan
proses bisnis yang digunakan untuk menghasilkan data tersebut yang dikenal
dengan istilah domain knowledge atau subject matter expertise.
Berbicara lebih jauh lagi mengenai bidang ilmu sains data, berikut adalah
beberapa teknik yang berhubungan dengan setiap tahapan dalam proses data
science, yaitu:
1. Statistik deskriptif (descriptive statistic), yaitu informasi penting yang digunakan
untuk memahami kumpulan data dan hubungannya, seperti menghitung nilai
rata-rata (mean), standard deviation, korelasi, dan sebagainya. Statistik deskriptif
digunakan pada tahapan eksplorasi data.
2. Visualisasi, yaitu proses untuk menyajikan data secara visual yang
memungkinkan pengguna untuk menemukan pola dan hubungan dalamdata
yang berukuran sangat besar. Proses ini pada dasarnya mirip dengan statistik
deskriptif.
3. Pengujian hipotesis (hypothesis testing), yaitu proses di mana hipotesis diuji
berdasarkan data observasi.
4. Rekayasa data (data engineering), yaitu bagian dari sains data yang berfungsi
untuk menyimpan, mengelola, dan mendistribusikan data secara efektif untuk
kepentingan analisis. Rekayasa data juga berperan dalam mempersiapkan data
sebelum diproses menggunakan algoritma data science
6
5. Kecerdasan bisnis (business intelligence), yaitu teknik yang digunakan untuk
mendistribusikan informasi kepada berbagai pihak dengan lebih efektif.
7
pada umumnya dilengkapi dengan tampilan grafis dan fitur-fitur penting (library)
yang bermanfaat untuk menjalankan algoritma sains data dengan lebih mudah
dalam waktu yang singkat.
4. Langkah Penyelesaian
Permasalahan:
Bidang Big Data dan Data Science dapat melibatkan berbagai permasalahan
yang perlu dipecahkan. Beberapa permasalahan umum dalam bidang ini adalah:
1. Permasalahan Data Quality:
Data yang tidak lengkap, tidak akurat, atau tidak konsisten dapat mengganggu
analisis dan model prediksi. Cara penyelesaiannya termasuk membersihkan
data, mengisi nilai yang hilang, dan memvalidasi data.
2. Skalabilitas:
Dalam Big Data, jumlah data yang sangat besar dapat mengakibatkan masalah
kinerja dan penyimpanan. Solusinya adalah menggunakan teknologi seperti
cluster komputasi dan penyimpanan terdistribusi, seperti Hadoop dan Spark.
3. Keamanan Data:
Melindungi data yang sensitif dari akses yang tidak sah adalah prioritas utama.
Enkripsi data, akses yang diatur dengan baik, dan pemantauan keamanan
adalah cara penyelesaiannya.
4. Pengolahan Real-Time:
Banyak aplikasi memerlukan pemrosesan data secara real-time. Ini memerlukan
infrastruktur yang sesuai dan algoritma yang efisien untuk mengolah data dengan
cepat.
5. Interpretasi Model:
9
Model machine learning dan statistik mungkin sulit untuk diinterpretasikan.
Memahami mengapa model membuat prediksi tertentu dapat menjadi tantangan.
Metode seperti "Explainable AI" dapat membantu.
6. Privasi Data:
Menghormati privasi individu adalah penting. Cara mengatasi masalah ini
melibatkan teknik anonimisasi dan pembatasan akses data.
7. Keterbatasan Sumber Daya:
Terkadang, sumber daya komputasi atau keuangan terbatas. Mencari cara untuk
mengoptimalkan sumber daya yang ada adalah tantangan.
8. Integrasi Data:
Data sering tersebar di berbagai sumber yang berbeda, dalam berbagai format.
Integrasi data untuk analisis yang efektif bisa menjadi rumit.
Penyelesaian:
Cara penyelesaian masalah dalam Big Data dan Data Science melibatkan
berbagai metode dan praktik, termasuk:
1. Pemodelan dan Analisis Data:
Membangun model statistik dan machine learning untuk memahami data dan
membuat prediksi yang akurat.
2. Pengolahan Data:
Menggunakan alat seperti Hadoop dan Spark untuk mengelola dan menganalisis
data dalam skala besar.
3. Visualisasi Data:
Menggunakan visualisasi data untuk menyajikan hasil analisis dengan cara yang
mudah dimengerti.
4. Pengembangan Algoritma:
Merancang algoritma yang efisien dan efektif untuk memecahkan masalah yang
kompleks.
5. Keamanan dan Privasi Data:
Menerapkan praktik keamanan data dan privasi yang kuat untuk melindungi data
yang sensitif.
6. Pengelolaan Sumber Daya:
Mengoptimalkan penggunaan sumber daya komputasi dan keuangan untuk
menjalankan analisis data.
10
7. Kolaborasi Tim:
Berkolaborasi dengan berbagai disiplin ilmu, termasuk ilmu komputer, statistik,
dan bisnis, untuk mengatasi permasalahan secara efektif.
5. Tugas
1. Apa yang dimaksud dengan data science?
2. Jelaskan rangkaian bagan CRISP-DM dan mengapa bagan tersebut penting
dalam melakukan analisis data?
3. Jelaskan cara terbaik dalam membangun sebuah model data yang
representative?
11
MODUL II
DATA DAN SISTEM MANAJEMEN DATA
1. Tujuan
1. Mahasiswa mengetahui dasar pengukuran data
2. Mahasiswa dapat mengidentifikasi jenis data
3. Mahasiswa dapat mengimplementasi dasar transmisi data
2. Landasan Teori
Data science pada dasarnya adalah bidang ilmu yang sangat bergantung
kepada data. Data merupakan inti dari setiap analisis dan pengambilan keputusan.
Data sendiri adalah abstraksi dari entitas di dunia nyata seperti halnya manusia,
benda atau kejadian. Setiap entitas biasanya dilengkapi dengan beberapa atribut.
Misalnya, entitas buku memiliki atribut seperti nama penulis, judul buku, jenis buku,
penerbit, harga, jumlah halaman, dan sebagainya. Istilah variabel dan fitur juga
sering dipakai dalam sains data yang menunjukkan suatu atribut. Dalam data
science, terdapat banyak jenis atribut di mana ia menentukan jenis analisis yang
nantinya akan digunakan dalam pengolahan data. Seorang data scientist wajib
memiliki kemampuan dalam mengenali dan memahami setiap atribut data. Untuk
memulai analisis data, penting untuk mengetahui sebelumnya jenis data yang kita
miliki. Pada data science terdapat beberapa jenis data, yaitu (1) data terstruktur, (2)
tidak terstruktur, (3) bahasa alami (natural language), (4) data yang dihasilkan oleh
komputer (machine-generated). (5) data berbasis graph, (6) audio, video, dan citra,
dan (7) data streaming.
A. DATA TERSTRUKTUR
Data terstruktur adalah data yang tergantung pada sebuah model data dan
memiliki kolom yang tetap dalam sebuah pangkalan data. Contoh sederhananya
adalah data yang disimpan dalam format spreadsheet (Excel file). Data ini juga
dikenal dengan istilah data atribut karena menyimpan atribut atau informasi detail
tentang sesuatu yang terbagi-bagi atas baris dan kolom (field and column).
Perangkat yang paling sering digunakan untuk mengelola data atribut dalam sebuah
pangkalan data adalah seperti Structured Query Language (SQL) atau Postgre SQL
12
untuk data spasial. Contoh data terstruktur disajikan oleh Gambar 4.
13
keilmuan dari pakar bahasa, tidak hanya dengan pendekatan data science saja.
Pada analisis natural language peneliti akan melihat pola penggunaan, analisis
sentimen, dan sebagainya yang membutuhkan bantuan kamus dari
bahasa yang digunakan.
14
pada media sosial seperti Tik Tok, atau media sosial peneliti seperti Research Gate
maupun Science and Technology Indeks (Sinta) milik Indonesia.
G. DATA STREAMING
Data streaming adalah data yang diperoleh, diubah, dan digunakan secara
waktu nyata (real time). Data ini dapat dalam bentuk yang terstruktur, tidak
terstruktur, audio, video, maupun citra. Data disimpan dalam sebuah pangkalan data
ketika suatu fenomena sedang terjadi, bukan dikirimkan dan disimpan setelah
fenomena terjadi. Data ini dibedakan dengan data lainnya karena sering kali peneliti
15
harus beradaptasi dengan proses pengolahan data ini. Contoh sederhana dari data
streaming adalah apa yang trending saat ini di media sosial Twitter, tayangan
langsung pertandingan sepak bola, dan nilai saham di pasar modal.
4. Langkah penyelesaian
Permasalahan :
Kualitas data yang tidak akurat serta tidak lengkap dapat mengganggu
pengambilan keputusan, faktor lainnya keamanan data merupakan perhatian
utama yang berdasarkan dari ancaman seperti peretasan, pencurian data, dan
pelanggaran privasi dapat merusak reputasi. Hal lainnya yang menjadi
permasalahan dalam data dan sistem manajemen data adalah pengintergrasian
data yang tersebar dan sistem sumber data yang berbeda, hal tersebut masih
membuat proses integrasi data menjadi kurang efisien dan tidak efektif.
Penyelesaian :
Penyelesaian dalam permasalahan tersebut secara koefisien dan
efektif, praktisi hingga aparatur yang berwenang perlu mengembangkan strategi
manajemen data yang komprehensif serta mengimplementasikan teknologi yang
sesuai, dan melibatkan personil yang terampil dalam pengelolaan data. Penting
16
juga untuk terus memantau dan mengevaluasi sistem manajemen data serta
beradaptasi dengan perkembangan teknologi dan kebutuhan organisasi.
5. Tugas
1. Menurut anda, seberapa penting data harus diintegrasikan menjadi sebuah
kesatuan? Jelaskan!
2. Jelaskan dan berikan contoh pada masa sekarang terkait pengolahan data
graph?
3. Menurut anda cara efektif yang dapat dilakukan untuk mengatasi
permasalahan data secara garis besar?
17
MODUL III
EKSPLORASI DATA
1. Tujuan
1. Mahasiswa memahami tujuan eksplorasi data
2. Mahasiswa dapat mengidentifikasi data negative serta outlier
3. Mahasiswa dapat mengimplementasi proses eksplorasi data
2. Landasan Teori
Sebelum menerapkan metode statistik, machine learning, atau teknik
algoritma pada suatu data, seorang data scientist pada umumnya membutuhkan
proses eksplorasi data sebagai tahapan dasar dalam memahami karakteristik dari
suatu dataset. Eksplorasi data bertujuan untuk memahami data dengan lebih baik
sebelum diproses dalam tahapan analisis lebih lanjut. Terkadang waktu yang
dibutuhkan dalam memahami suatu data lebih cepat dengan menggunakan metode
eksplorasi data. Dalam data science, eksplorasi data lebih dikenal dengan istilah
Exploratory Data Analysis (EDA), yaitu seperangkat alat yang digunakan untuk
memahami sifat, struktur, dan distribusi data. EDA juga dapat digunakan dalam data
science untuk melihat hubungan antarbeberapa atribut dalam suatu dataset.
Keluaran yang dihasilkan dalam eksplorasi data biasanya berupa tabel pivot,
perhitungan statistik sederhana seperti nilai mean dan deviation, dan plotting data
dalam bentuk line, bar atau scatter charts. Keluaran tersebut dapat dijadikan
panduan dan pertimbangan dalam memilih metode data science yang tepat untuk
analisis lebih lanjut.
18
membantu dalam mengetahui nilai khas dari suatu atribut, data yang berbeda
dari nilai tipikal, data pencilan (outlier), serta nilai minimum dan maksimum dari
suatu kumpulan data.
2. Mempersiapkan Data
Sebelum menerapkan algoritma data science, dataset harus siap untuk mena
ngani setiap anomali yang mungkin terjadi seperti adanya data pencilan (data
outlier), nilai yang hilang (missing values), dan atribut yang memiliki nilai korelasi
yang sangat tinggi. Beberapa algoritma sains data tidak dapat bekerja dengan
baik ketika atribut saling berkorelasi dengan nilai yang sangat tinggi. Untuk
pemecahan masalah pada pencilan data (data outlier) diperlukan pembahasan
mengani statistic dasar, yang meliputi:
1. Statistik dasar (descriptive statistic) seperti melihat ukuran pusat (mean,
median, modus) dan penyebaran data (jangkauan, kuartil, dan jangkauan
interkuartil).
2. Visualisasi data (univariat/multivariat).
3. Membuat hipotesis (dugaan awal).
4. Pemeriksaan asumsi.
5. Story telling atau pelaporan (reporting) hasil
3. Metode Data Science
Keseluruhan proses dalam data science. Sebagai contoh, scatter plot dapat
digunakan untuk mengidentifikasi cluster untuk data dengan dimensi rendah
(low-dimensional data) dan visualisasi data dapat membantu dalam
mengembangkan model regress atau model klasifikasi untuk kasus-kasus
sederhana.
4. Menafsirkan Hasil
Eksplorasi data juga dapat digunakan untuk memahami hasil prediksi klasifikasi
atau pengelompokan (clustering) yang didapatkan dari keseluruhan proses data
science. Sebagai contoh, histogram membantu dalam memahami distribusi
atribut dan juga berguna untuk memvisualisasikan predikst numerik estimasi
tingkat kesalahan (error rate estimation), dan lain-lain.
21
3. Alat dan bahan
Alat tulis dan buku refrensi
Kotu, V., & Deshpande, B. (2018). Data Science: Concepts and Practice. Morgan
Kaufmann.
4. Langkah penyelesaian
Permasalahan :
Dalama tahapan eksplorasi data terdapat beberapa permasalahan antara lain
seperti kesalahan pada penginputan data, pengukuran data, kesalahan
eksperimental seperti ekstrasi data atau kesalahan perencanaan. Hal tersebut
mengakibatkan kualitas data mengalami perubahan atau mengalami anomali yang
cukup signifikan sehingga data tersebut harus diperbaiki agar dapat berguna
menjadi hipotesis awal dalam sebuah permasalahan.
Penyelesaian :
Langkah penyelesaian eksplorasi data dalam data science dapat melibatkan
serangkaian tindakan yang terstruktur untuk memahami, membersihkan, dan
mempersiapkan data sebelum analisis lanjutan. Berikut adalah langkah-langkah
umum dalam penyelesaian eksplorasi data:
1. Pemahaman Data:
Mengidentifikasi tujuan eksplorasi data dan pertanyaan yang ingin dijawab.
Mempelajari struktur data, jenis variabel (numerik, kategorik, dll.), dan jumlah
data yang tersedia.
2. Pembersihan Data:
Mengidentifikasi dan mengatasi data yang hilang (missing data). Mengidentifikasi
dan mengatasi data duplikat. Menangani data outlier jika diperlukan.
Mengkonversi atau mengkode data kategorik menjadi format yang
sesuai.Memastikan konsistensi format data (misalnya, format tanggal yang
konsisten).
3. Visualisasi Data:
Membuat grafik dan visualisasi data untuk memahami distribusi, pola, dan
hubungan dalam data. Gunakan grafik seperti histogram, scatter plot, box plot,
dan heatmap untuk memvisualisasikan data. Gunakan visualisasi untuk
22
mengidentifikasi tren, anomali, atau hubungan yang mungkin terjadi dalam data.
4. Analisis Statistik Awal:
Hitung statistik deskriptif seperti mean, median, deviasi standar, dan kuartil.
Identifikasi distribusi data, seperti apakah data terdistribusi normal atau tidak.
Gunakan analisis statistik untuk mendapatkan wawasan awal tentang data.
5. Eksplorasi Hubungan:
Menganalisis korelasi antara variabel-variabel dalam data. Identifikasi hubungan
antara variabel numerik dan kategorik. Gunakan teknik seperti analisis regresi
atau uji hipotesis untuk mengidentifikasi hubungan yang signifikan.
6. Interpretasi Hasil:
Menganalisis temuan yang ditemukan selama eksplorasi data. Pertimbangkan
implikasi hasil tersebut terhadap tujuan eksplorasi data dan pemahaman
masalah yang dihadapi.
7. Keputusan Preprocessing:
Tentukan langkah-langkah pengolahan data tambahan yang diperlukan sebelum
analisis lanjutan, seperti pemilihan fitur, normalisasi data, atau pemusatan data.
Atur format data yang cocok untuk algoritma atau model yang akan digunakan
dalam analisis lanjutan.
8. Pelaporan Hasil:
Dokumentasikan hasil eksplorasi data dalam laporan atau catatan yang jelas.
Bagikan temuan dengan anggota tim atau pemangku kepentingan yang relevan.
Langkah-langkah di atas dapat dilakukan secara berulang-ulang sesuai dengan
perkembangan pemahaman tentang data dan tujuan eksplorasi. Penyelesaian
eksplorasi data yang baik membantu memastikan bahwa data siap digunakan
untuk analisis lanjutan atau pemodelan dalam data science.
5. Tugas
1. Apa yang dimaksud dengan eksplorasi data?
2. Berapa tahapan yang dibutuhkan dalam eksplorasi data?
3. Faktor apa saja yang mempengaruhi keberhasilan dari melakukan eksplorasi
data?
23
MODUL IV
DATA PREPROCESSING
1. Tujuan
1. Mahasiswa mengetahui maksud dan tujuan data preprocessing
2. Mahasiswa dapat mengidentifikasi outliers
3. Mahasiswa dapat menentukan kualitas data
2. Landasan Teori
Berdasarkan kondisi nyata, data cenderung memiliki sifat noise, missing, dan
inconsistent karena ukurannya yang besar dan berasal dari berbagai sumber data
yang berbeda-beda. Data dengan sifat tersebut memiliki kualitas yang rendah
sehingga menyebabkan hasil analisis yang tidak reliable. Ada banyak faktor yang
dapat menentukan kualitas dari suatu data, misalnya:
1. Akurasi (accuracy), misalnya beberapa atribut tidak memiliki nilai atau memiliki
nilai yang salah;
2. Kelengkapan (completeness), misalnya terdapat error dan nilai data yang sangat
menyimpang;
3. Konsistensi (consistency), misalnya menggunakan kode yang berbeda- beda
untuk kategori;
4. Ketepatan waktu (timeliness), misalnya data yang dikumpulkan tidak tepat waktu
sehingga data tidak tersedia;
5. Kepercayaan (believability), misalnya data yang sering error atau per- hitungan
data yang salah sehingga pengguna tidak percaya dengan hasil yang
ditampilkan;
6. Kemudahan interpretasi (interpretability) menunjukkan seberapa mudah data
diinterpretasikan. Misalnya penggunaan kode-kode yang tidak mudah untuk
diterjemahkan oleh orang lain.
Salah satu cara yang dapat digunakan untuk meningkatkan kualitas dari
suatu data sebelum masuk ke tahapan data mining adalah dengan melakukan teknik
prapemrosesan data (data preprocessing). Beberapa teknik yang diterapkan pada
data preprocessing adalah sebagai berikut:
24
1. Data Cleaning
Pembersihan data dilakukan untuk tujuan menghapus noise, melakukan koreksi
terhadap data yang tidak konsisten, mengisi data yang kosong, dan menghapus
data yang duplikat dan data yang sangat me- nyimpang dari nilai normal
(data outliers).
2. Data Integration
Integrasi data menggabungkan data dari berbagai sumber ke dalam
penyimpanan data yang koheren seperti gudang data (data warehouse).
3. Data Reduction
Reduksi data dapat digunakan untuk mengurangi ukuran data, misalnya
melakukan agregasi data, menghilangkan fitur yang berlebihan, atau melakukan
pengelompokan (clustering). Strategi untuk reduksi terdiri dari pengurangan
dimensi (dimensionality reduction) dan ngurangan jumlah (numerosity reduction).
4. Data Transformation
Transformasi data misalnya teknik normalisasi dapat diterapkan de ngan cara
memberikan skala pada data agar berada dalam rentang yang lebih kecil seperti
0.0 hingga 1,0.
Teknik ini dapat meningkatkan akurasi dan efisiensi algoritma data mining
yang melibatkan pengukuran jarak (distance measurements). Contoh sederhananya
adalah mengubah nilai pada sumbu x menjadi log x sehingga hubungan antara x
(variabel bebas) dan y (variabel terikat) menjadi linear Gambar 8 berikut dapat
mengilustrasikan perbedaan dari beberapa teknik data preprocessing.
25
A. DATA CLEANING
Penanganan Missing Value
Bayangkan semisal Anda perlu menganalisis data penjualan dan data
pelanggan dari sebuah perusahaan. Anda melihat bahwa banyak tupel (catatan atau
baris pada table database) yang tidak memiliki nilai untuk beberapa atribut seperti
pendapatan pelanggan. Beberapa metode yang dapat diterapkan untuk penanganan
missing value adalah sebagai berikut:
1. Mengabaikan atau menghapus tupel, misalnya untuk kasus klasifikasi beberapa
label kelas tidak ada.
2. Mengisi nilai yang hilang secara manual, namun cara ini akan memakan banyak
waktu dan tidak bisa diterapkan pada dataset dengan ukuran yang sangat besar.
3. Menggunakan konstanta global untuk mengisi nilai yang kosong seperti
mengisinya dengan "unknown" atau "null". Akan tetapi, data dengan nilai null
yang banyak membuat model data semakin tidak baik.
4. Menggunakan tendensi sentral dari atribut, misalnya nilai mean untuk data
dengan distribusi normal dan nilai median untuk skewed data distribution.
26
Gambar 9. Teknik Binning untuk smoothing data
2. Regresi
Teknik yang digunakan untuk penghalusan data dengan cara memasukkan data
ke dalam fungsi regresi.
3. Analisis Outlier
Mendeteksi nilai-nilai pencilan yang mencurigakan dan membuang nilai tersebut
(Gambar 9). Nilai tersebut dapat terlalu tinggi ataupun terlalu rendah
dibandingkan dengan nilai yang lainnya.
C. STATISTIK DESKRIPTIF
Salah satu tahapan penting dalam eksplorasi data adalah analisis statistik
deskriptif, yaitu metode yang digunakan untuk memberikan informasi mengenai
kumpulan data. Dengan metode ini, dataset dengan jumlah yang sangat besar dapat
disajikan dalam format yang lebih ringkas dan memberikan informasi inti mengenai
dataset yang akan diteliti. Beberapa contoh penerapan dari statistik deskriptif dalam
aplikasi bisnis adalah menghitung nilai rata-rata pendapatan tahunan seorang
karyawan, rata- rata harga rumah dalam suatu kompleks perumahan, dan rentang
nilai dari skor kredit dalam suatu populasi, dan sebagainya. Dengan menggunakan
statistika deskriptif, data scientist dapat mengetahui ukuran pemusatan data, ukuran
penyebaran data, dan bentuk distribusi data (Gambar 10) menjelaskan tentang
27
informasi yang dapat disajikan menggunakan statistika deskriptif dan
teknik yang digunakan.
Dataset Iris terdiri atas 150 sampel dan dibagi menjadi tiga kelompok
berdasarkan spesiesnya. Masing-masing spesies (Iris setosa, Iris virginica, dan Iris
28
versicolor) memiliki 50 data yang terdiri atas lima atribut, yaitu nama spesies,
panjang sepal, lebar sepal, panjang kelopak, dan lebar kelopak. Kolom spesies
dijadikan sebagai variabel target yang akan memuat kelas untuk kasus klasifikasi,
sedangkan empat kolom lainnya disebut sebagai fitur yang nantinya digunakan
untuk menentukan kelas.
D. EKSPLORASI UNIVARIAT
1. Tendensi Sentral
Tujuan dari mengetahui lokasi sentral dari suatu atribut adalah untuk menghitung
dataset menggunakan satu nilai pusat atau nilai yang umum Untuk mengetahui
tendensi sentral pada dataset, kita dapat menggunakan nilai mean, median dan
modus (mode). Mean adalah nilai rata-rata dari suatu himpunan data. Median
menyatakan nilai titik sentral dalam distri busi data. Untuk mendapatkan nilai
tengah, data harus diurutkan dari nilai terkecil ke terbesar. Jika terdapat dua data
pada posisi tengah, maka nilai median didapatkan dari nilai rata-rata kedua data
tersebut.
2. Ukuran Penyebaran Data: Median, Mode
Terdapat dua metrik yang umum digunakan dalam mengukur penyebaran data,
yaitu range dan deviation. Range atau rentang digunakan untuk menghitung
selisih dari nilai maksimum dan nilai minimum suatu atribut. Contohnya seperti
rentang suhu di daerah gurun yang berkisar 80°F dan di daerah tropis yang
memiliki kisaran nilai suhu sebesar 20°F. Deviation dibagi menjadi nilai varians
dan nilai standar deviasi (simpangan baku) dengan tujuan mengukur penyebaran
data. Nilai deviasi diukur berdasarkan selisih antara nilai yang diberikan (x) dan
nilai mean dari sampel (u). Untuk dataset sebanyak N data, nilai varians (s).
3. Eksplorasi data
Eksplorasi multivariat adalah analisis yang dilakukan pada lebih dari satu atribut
dalam dataset. Teknik ini sangat penting dalam bidang ilmu data science untuk
memahami hubungan antaratribut. Sama seperti eksplorasi univariat yang sudah
dijelaskan sebelumnya, pada eksplorasi multivariat juga dibutuhkan analisis
mengenai ukuran tendensi sentral dan nilai varians. Kemudian, yang paling
penting dari eksplorasi multivariat adalah perhitungan nilai korelasi. Korelasi
adalah teknik statistika yang digunakan untuk memahami hubungan antara dua
atribut. Nilai korelasi menunjukkan besarnya ketergantungan satu atribut dengan
29
atribut lain. Sebagai contoh suhu udara yang berkorelasi atau memengaruhi
penjualan es krim di daerah pantai. Dua atribut yang berkorelasi menandakan
ketergantungan satu sama lain atau salah satu atribut dapat memprediksi atribut
yang lain. Sebagai contoh, penjualan es krim di masa depan dapat diprediksi
berdasarkan data suhu di daerah pantai. Akan tetapi, korelasi antara dua atribut
tidak selalu menyimpulkan hubungan sebab-akibat (causation). Sebagai contoh,
penjualan es krim mungkin saja berkorelasi dengan perubahan warna kulit
karena orang-orang pada umumnya akan pergi berlibur ke pantai selama musim
panas. Namun, penjualan es krim tidak menyebabkan perubahan warna kulit
seseorang. Dua atribut, yaitu penjualan es krim dan perubahan warna kulit sama-
sama dipengaruhi oleh atribut ketiga, yaitu musim panas. Korelasi antardua
atribut diukur menggunakan Pearson Correlation Coefficient (r). Koefisien
korelasi bernilai-1 srs 1. Nilai yang mendekati angka 1 maupun -1 menandakan
dua atribut yang sangat berkorelasi. Nilai korelasi I dan -1 juga menandakan
korelasi sempurna. Sebagai contoh nilai gaya gravitasi yang bergantung kepada
massa dari suatu objek dan banyaknya produk yang terjual memengaruhi total
pendapatan. Nilai korelasi 0 menandakan tidak adanya hubungan antardua
atribut. Memahami korelasi dapat dengan mudah dilakukan dengan
menggunakan teknik visualisasi data yang akan dijelaskan pada
bagian selanjutnya.
E. STATISTIK INFERENSIAL
Untuk memahami bagaimana suatu hal atau fenomena berlaku pada suatu
populasi kita dapat menggunakan pendekatan statistik inferensial. Statistik infe
rensial adalah pendekatan statistik yang berlandaskan kepada data sampel dari
suatu populasi, untuk kemudian menarik kesimpulan atas populasi tersebut
berdasarkan pada sampel yang telah dikumpulkan, diolah, dan dianalisis. Karena
terkadang peneliti tidak memiliki sumber daya seperti waktu, biaya, tenaga, dan lain
sebagainya untuk melakukan analisis atas keseluruhan populasi. Peneliti kemudian
memilih sampel dari beberapa individu untuk melakukan penelitiannya. Dalam
statistik inferensial kita perlu memahami beberapa konsep dasar seperti teori
probabilitas, variabel random diskret dan kontinu, teknik sampling, distribusi
probabilitas, dan uji hipotesisnya baik secara parametris maupun non-parametris.
30
F. VISUALISASI DATA
Visualisasi data juga merupakan teknik penting dalam rangka dari eksplorasi
data. Visualisasi data diartikan sebagai sebuah proses dalam memperoleh,
menafsirkan, dan membandingkan data untuk mengkomunikasikan ide ide yang
kompleks sehingga memudahkan proses identifikasi dan analisis pola yang
bermakna. Tujuan dari visualisasi data adalah sebagai berikut:
1. Sarana komunikasi.
2. Membantu dalam menginterpretasikan data yang tersedia.
3. Mendeteksi pola, tren, dan anomali pada data.
4. Membantu pengambilan keputusan yang tepat.
Konten visual memainkan peran penting dalam setiap momen hidup kita.
Sebuah studi oleh Ship Duruptive Learning menunjukkan bahwa otak manusia
biasanya mem proses gambar 60.000 kali lebih cepat daripada tabel atau teks, dan
otak biasanya melakukan pekerjaan yang lebih baik untuk mengingatnya dalam
jangka panjang. Penelitian yang sama mendeteksi bahwa setelah tiga hari, informasi
tertulis atau secara lisan hanya dapat bertahan hingga 10% dan 20% di memori kita,
sedangkan untuk informasi visual dapat mencapai 65% sehingga, representasi
visual dengan menggunakan gambar adalah cara yang lebih efektif untuk
mengomunikasikan informasi daripada menggunakan teks atau tabel. Representasi
visual dapat membantu sese orang dalam memahami data yang kompleks dengan
banyak atribut dan memberikan kemudahan dalam memahami hubungan
antaratribut. Seseorang juga dapat dengan mudah memahami pola dan tren dari
suatu dats hanya dengan menggunakan visualisasi sederhana, di mana hal tersebut
sulit dilakukan dengan representasi data secara tradisional
menggunakan kumpulan angka. Secara umum, visualisasi data membantu dalam 3
(tiga) hal berikut ini.
1. Explaining
Visualisasi bertujuan untuk memudahkan dalam menggambarkan situasi,
menjawab pertanyaan, mendukung keputusan, mengkomunikasikan informasi,
dan memecahkan masalah tertentu. (Gambar 12) dapat dengan jelas
menginformasikan negara dengan permintaan terbesar untuk produk tertentu
secara global.
31
Gambar 12. perilaku konsumtif
2. Exploring
Beberapa visualisasi data dibuat untuk memudahkan orang lain dapat melakukan
eksplorasi data secara visual, orang lain dapat berinteraksi dengan dataset
secara visual, mengajukan pertanyaan, mengeksplorasi, dan menemukan
beberapa solusi atau jawaban. Misalnya: grafik interaktif dari The Guardian
memudahkan kita untuk mengeksplorasi bagaimana standar linguistik pidato
kepresidenan AS telah menurun dari waktu ke waktu.
3. Analyzing
Visualisasi data dapat membantu orang lain dalam memeriksa, menyaring, dan
mengubah informasi yang signifikan dalam suatu kum pulan data sehingga
mereka dapat menemukan sesuatu yang baru atau memprediksi situasi yang
akan datang. Misalnya, grafik interaktifnya tentang machine learning membantu
kita untuk menjelajahi, menemukan informasi, dan melihat pola dalam data.
32
Gambar 13. Histogram
2. Quartile Plot
Quartile plot dapat digunakan untuk menampilkan distribusi data berdasarkan
kategori. Teknik visualisasi ini memfasilitasi pembaca untuk memahami
perbandingan antar variabel atau fitur dalam dataset.
33
Gambar 15. Grafik Distribution Chart.
Dari gambar diatas tersebut kita dapat menyimpulkan babes petal length untuk
spesies iris setosa memiliki nilai yang lebih bervaria dan kohesif dibandingkan
dengan dua spesies lainnya, yaitu iris virginis dan versicolor. Selain itu, secara
sederhana grafik distribusi juga dapat digunakan untuk memprediksi jenis
spesies bunga iris berdasarkan panjang petalnya. Sebagai contoh, bunga iris
dengan karakteristik panjang petal 1.5 cm dapat dikategorikan sebagai iris
setosa. Kemudian, nilai panjang petal 5 cm dikategorikan dalam iris versicolor
atau iris virginia karena berada pada titik perpotongan dari dua spesies.
2. Scatterplot Matrix
Scatterplot matrix dapat menjadi solusi dari keterbatasan teknik visualisasi
menggunakan scatterplot di mana hanya dapat menampilkan hubungan dari dua
atribut saja. Dengan scatterplot matrix data dapat menampilkan hubungan dari
empat atribut pada dataset irtis dalam satu grafik Perbedaan warna
merepresentasikan jenis spesies yang berbeda.
3. Bubble Plot
Bubble plot pada dasarnya merupakan variasi dari scatterplot dengan menam
bahkan satu dimensi berupa ukuran titik (size of point). Berikut ini adalah bubble
plot yang menggambarkan hubungan dari dua atribut, yaitu petal length dan petal
width. Lingkaran mendefinisikan ukuran dari atribut petal width.
35
Gambar 18. Bubble Plot
4. Density Chart
Pada dasarnya, penggunaan density chart sama seperti scatterplot di mana data
ditunjukkan menggunakan koordinat kartesius. Petal length pada density chart
digambarkan oleh sumbu x dan sepal width oleh sumbu y. Warna latar belakang
menunjukkan densitas dimana dalam kasus ini, penulis menggunakan atribut
sepal width.
36
4. Langkah penyelesaian
Permasalahan:
Permasalahan lain dalam tahapan preprocessing data ialah adanya sumber
data yang berkaitan dengan missing value. Apabila mendapatkan data yang
opensource terdapat source data yang mengalami missing value, hal tersebut
dikarenakan adanya kesalahan input ataupun kesalahan pengambilan sample dan
data tersebut terunduh pada web data source.
Penyelesaian:
Penyelesaian permasalahan data processing melibatkan serangkaian langkah
untuk memproses, membersihkan, dan merapihkan data agar siap digunakan dalam
analisis data, pemodelan, atau tugas lainnya dalam konteks data science. Berikut
adalah langkah-langkah umum dalam menyelesaikan permasalahan data
processing:
1. Pemahaman Masalah
a. Memahami tujuan pemrosesan data dan masalah yang ingin dipecahkan.
b. Mengidentifikasi jenis data yang digunakan, sumber data, dan persyaratan
data.
2. Pengumpulan Data:
a. Mengumpulkan data dari berbagai sumber, termasuk basis data, file, API,
atau sensor.
b. Memastikan integritas data selama pengumpulan dan transfer data.
3. Pembersihan Data:
a. Mengidentifikasi dan mengatasi data yang hilang (missing data).
b. Mengidentifikasi dan mengatasi data duplikat.
c. Menangani data outlier jika diperlukan.
d. Mengonversi atau mengkode data kategorik menjadi format yang sesuai.
e. Memastikan konsistensi format data (misalnya, format tanggal yang
konsisten).
4. Transformasi Data:
a. Merubah format atau struktur data jika diperlukan, seperti menggabungkan
kolom, membagi kolom, atau mengubah tipe data.
b. Normalisasi data jika perlu untuk memastikan data berada pada rentang yang
37
sesuai.
5. Pemilihan Fitur (Feature Selection):
a. Memilih subset fitur yang relevan untuk tujuan analisis atau pemodelan.
b. Menghindari overfitting dengan menghapus fitur yang tidak memberikan
kontribusi signifikan.
Langkah-langkah di atas dapat disesuaikan dengan tugas dan proyek tertentu
dalam data science. Penting untuk menciptakan proses yang konsisten dan dapat
diulang untuk pemrosesan data yang efisien dan akurat. Data processing yang baik
adalah langkah kunci dalam menjalankan proyek data science dengan sukses.
5. Tugas
1. Apa yang yang dimaksud dengan data processing?
2. Penggunaan grafik pada sebuah visualisasi data ditentukan berdasarkan?
3. Sebutkan perbedaan data univariat dan data multivariat?
38
MODUL V
MENGANALISIS DAN EVALUASI DATA SCIENCE
1. Tujuan
1. Mahasiswa mengetahui tujuan menganalisis serta evaluasi data science
2. Mahasiswa dapat mengidentifikasi sebuah kesalahan pada data yang
dievaluasi
3. Mahasiswa dapat mengimplementasi hasil evaluasi
2. Landasan Teori
RUMUSAN MASALAH ANALISIS DATA
Dalam melakukan pengolahan dan analisis data, peneliti perlu membangun
kalimat rumusan masalah untuk membantu penelitian menjadi lebih fokus. Rumusan
masalah yang tepat akan mengarahkan penelitian kepada proses pengolahan dan
analisis yang akurat. Namun, sering kali ditemukan kesalahan yang tidak perlu
muncul dalam membangun kalimat rumusan masalah. Hal ini dapat terjadi
dikarenakan beberapa hal seperti: (1) Kurang menggali lebih dalam penelitian
sebelumnya, (2) latar belakang penelitian yang tidak kuat, dan (3) belum memahami
arti dari rumusan masalah.
Kurang menggali lebih dalam penelitian sebelumnya berarti peneliti kurang
melakukan kajian literatur terkait topik dan metode yang beririsan dengan
penelitiannya. Hal ini dapat dilakukan dengan mengunjungi pangkalan data ilmiah
seperti Science Direct (sciencedirect.com), Springer (https://link.springer.com/),
IEEE (https://ieeexplore.ieee.org/Xplore/home.jsp). Wiley
(https://www.onlinelibrary.wiley.com/), atau Taylor and Francis
(https://taylorandfrancis.com/). Tidak kuatnya latar belakang berarti peneliti kurang
mendalami dengan baik topik penelitian yang dilakukan, Minimnya observasi atau
kurangnya data pendukung awal terkait topik penelitiannya dapat menyebabkan
lemahnya latar belakang yang dibangun. Selanjutnya, yang paling banyak dijumpai
adalah sebagian besar peneliti belum memahami arti dari rumusan masalah.
Rumusan masalah bukanlah pekerjaan yang akan dilakukan selama melakukan
penelitian, bukan pula proses yang harus dilalui. Namun, rumusan masalah adalah
39
pertanyaan yang akan ditemukan jawabannya setelah penelitian selesai dilakukan.
Jawabannya merupakan produk akhir dari penelitian, bukan proses di tengah-
tengah penelitian.
A. DESKRIPTIF
Kalimat rumusan masalah deskriptif berarti akan mencari jawaban dengan
membuat deskripsi yang merupakan hasil akhir dari penelitian. Deskripsi yang
dibangun merupakan produk akhir dari metodologi yang digunakan dalam penelitian.
Metodologi yang digunakan dapat berupa observasi, wawancara, dan dokumentasi.
Kemudian, teknik interpolasi digunakan untuk mencar benang merah atau tumpang-
tindih informasi yang diperoleh dari ketiga metodologi yang digunakan. Dengan kata
lain peneliti berupaya mencari irisan dari informasi yang diperoleh. Contoh,
"bagaimana peran perkembangan teknologi informasi selama dua dekade terakhir di
Indonesia?" Kalimat tanya seperti ini hanya akan ditemukan jawabannya ketika
peneliti telah mengumpulkan berbagai data dengan metode yang dipilih. Kemudian,
dirangkailah hasil jawaban yang ditemukan secara deskriptif.
B. ASOSIATIF
Kalimat rumusan masalah asosiatif berarti mencoba mencari jawaban dengan
membangun hubungan antardua atau lebih variabel penelitian yang digunakan.
Peneliti dapat menggunakan metode regresi ataupun prediksi untuk melihat
hubungan antar variabel penelitian. Contoh kalimat rumusan masalah asosiatif
adalah, "bagaimana pengaruh penerapan data mining, pada peningkatan
keuntungan perusahaan?" terlihat dengan jelas terdapat variabel bebas dan terikat
yang disebutkan pada kalimat rumusan masalah tersebut. Yaitu "data mining"
sebagai variabel bebas dan "peningkatan keuntungan" sebagai variabel terikat.
Artinya, peneliti akan menghasilkan informasi bagaimana pengaruh penerapan data
mining pada peningkatan keuntungan perusahaan. Hal ini hanya akan terjawab
setelah berbagai macam data dikumpulkan, diolah, dan dianalisis untuk kemudian
ditarik kesimpulan.
C. KOMPARATIF
Berbeda dengan rumusan masalah sebelumnya, pada bentuk komparatif
peneliti harus melakukan perbandingan antarvariabel penelitian yang digunakan.
40
Perbandingan harus setingkat, artinya jika melakukan penelitian perbandingan,
maka dua atau lebih hal yang dibandingkan tersebut harus memiliki tingkat yang
sama. Misal, dalam melakukan analisis data science geospasial berbasis raster (eg,
citra satelit) peneliti bermaksud membandingkan berbagai algoritma klasifikasi.
Peneliti harus memahami dengan baik cara kerja dari algoritma yang akan
dibandingkan. Algoritma berbasis prediksi dengan arsitektur pohon seperti CART
dan Random Forest (RF), tidak bisa dibandingkan dengan algoritma berbasis
jaringan saraf tiruan (JST) seperti Multilayer Perceptron (MLP) atau Radial Basis
Function Neural Network (RBFNN). "Bagaimana perbandingan performa algoritma
klasifikasi CART dan RF yang diterapkan pada data citra satelit sentinel pada
platform komputasi awan Google Earth Engine?" Pada rumusan masalah tersebut
peneliti akan membandingkan dua algoritma klasifikasi berbeda yang akan
diterapkan pada data citra sentinel dengan memanfaatkan platform komputasi awan
Google Earth Engine (GEE). Peneliti juga perlu menjelaskan dengan detail hal yang
dibandingkan, pada rumusan masalah di atas, peneliti perlu menjelaskan apa yang
dimak- sud dengan performa? Apakah kecepatan waktu pengolahan, akurasi hasil
klasifikasi, atau keduanya.
D. GABUNGAN
"Bagaimana perbedaan rasio jumlah data latih dan data uji, pada algoritma
machine learning SVM dan KNN yang diterapkan pada data foto Google Street
View?" Ini adalah contoh kalimat rumusan masalah dengan bentuk gabungan.
Dalam rumusan masalah di atas, terdapat dua variabel, yan data latih dan data uji.
Sementara algoritma yang digunakan, yaitu Support Vector Machine (SVM) dan k
Nearest Neighbour (kNN). Peneliti hanya akan memperoleh jawabannya setelah
penelitian selesai. Misal, pada akhir penelitian peneliti berhasil mendapatkan fakta
ilmiah bahwa dalam proses membedakan vegetasi dan non-vegetasi dari foto
Google Street View, algoritma KNN sama baiknya dengan SVM, baik dengan
menggunakan rasio jumlah data latih dan data uji yang berbeda. Maka dapat ditarik
kesimpulan bahwa dalam kasus ini, kedua algoritma tersebut tidak jauh berbeda.
Kesalahan yang sering kali muncul dalam membangun kalimat rumusan masalah
adalah peneliti terjebak pada proses pengerjaan penelitian, seperti:
1. Bagaimana merancang.
2. Bagaimana proses.
41
3. Bagaimana membangun.
4. Bagaimana mengimplementasikan.
5. Bagaimana menerapkan.
6. Dan sebagainya.
Hal ini dapat diperbaiki dengan cara sederhana, yaitu dengan menyebutkan
secara langsung variabel penelitian, atau algoritma yang digunakan, maupun
metodologi lain yang dipilih sehingga peneliti dapat keluar dari kesalahan.
E. TRIVIAL
Menurut Kamus Besar Bahasa Indonesia (KBBI) daring, trivial berarti bernilai
kecil atau remeh, atau dalam matematika bernilai nol (0). Dalam data science, trivial
berarti mengolah data untuk tidak menghasilkan apa pun. Kegiatan itu termasuk
trivial karena mengolah data tanpa menghasilkan apa pun sama dengan menyia-
nyiakan waktu.
Mengolah data harus dengan tujuan memperoleh hasil, apa pun hasilnya.
Positif ataupun negatif tetaplah hasil penelitian. Meskipun hasilnya negatif tetap
berkontribusi pada ilmu pengetahuan karena peneliti lain tidak perlu membuang
waktu untuk mengulangi hal yang sama. Itu bentuk kontribusi dari hasil penelitian
yang negatif.
Trivial lain dalam data science adalah melakukan pengolahan data yang
hasilnya sudah menjadi pengetahuan umum. Misalnya, untuk mem- buktikan bahwa
air adalah benda cair, maka peneliti mengumpulkan berbagai macam air dari
berbagai lokasi yang berbeda dan menyimpulkan bahwa air adalah benda cair.
Bentuk trivial lainnya adalah mengulangi penelitian yang sama hanya dengan
objek yang berbeda. Misalnya, melakukan analisis data untuk penerimaan pengguna
studi kasus sistem informasi penerimaan mahasiswa kampus A. kemudian dilakukan
ulang untuk kampus B, kemudian diulangi kembali untuk kampus C, oleh tiga
peneliti yang berbeda.
F. MANUAL
Bentuk kesalahan lain dalam proses pengolahan dan analisis data adalah
pengerjaan yang dapat dilakukan secara manual, namun dilakukan secar otomatis.
Proses manualisasi memang membutuhkan banyak waktu namun jika hal tersebut
masih mungkin untuk dilakukan, maka tidak alasan bagi peneliti untuk melakukan
42
secara otomatis.
Peneliti bidang data science kadang terjebak pada computational chamisme,
yaitu sebuah paham yang menganggap bahwa seluruh persoalan dapat diselesaikan
dengan pendekatan komputasi. Jumlah data yang cukup diselesaikan secara
manual kemudian harus diselesaikan dengan pendekata komputasi yang kompleks.
Ilustrasi sederhana dalam hal ini adalah seseorang hendak memotong ranting pohon
yang kecil, namun menggunakan alat berat seperti gergaji mesin yang besar. Atau
seperti hendak memotong tomat namun menggunakan pisau daging
G. EKSTRAKSI
Dalam proses pengolahan dan analisis data tidak ada ekstraksi penge tahan
baru, maka hal ini tidak dapat disebut sebagai sains data. Sering kali peneliti hanya
merombak data dengan berbagai algoritma tersedia, namun tidak menghasilkan
pengetahuan baru maupun inform yang layak dikonsumsi oleh khalayak ilmiah dan
umum. Sehingga, dalam proses pengolahan dan analisis data ini dapat distrasikan
seperti mengalah kelapa. Kelapa harus diparut, kemudian diperuntukan
menghasilkan santan. Santan ini kemudian disangrai untuk menghasilkan minyak
kelapa yang dapat digunakan untuk berbagai keperluan
H. PROSES PENEMUAN
Proses penemuan informasi dan pengetahuan baru juga harus menjadi fokus
utama dari pengolahan dan analisis data. Jika dalam proses pene- muan ini tidak
menemukan apa-apa, bukan berarti penelitian tidak ber- manfaat. Kekeliruan paham
dan pola pikir bahwa penelitian harus selalu menghasilkan penemuan baru telah
menjadi virus baru dalam kalangan dunia ilmiah di Indonesia.
Setiap penelitian harus selalu menghasilkan penemuan baru. Meskipun
hasilnya menunjukkan hasil yang negatif atau tidak ada penemuan, maka hal itu
menjadi kontribusi penting. Karena pilihan metode yang digunakan ternyata tidak
dapat memberikan hasil yang diharapkan. Kontribusi ini layak diapresiasi karena
akan banyak menghemat waktu peneliti lain untuk menghindari metode yang telah
digunakan.
A. AKUISISI DATA
Proses akuisisi data merupakan proses paling awal dalam data science, dan
sering kali terabaikan misal, siapa yang melakukan proses akuisisi?. Apa instrumen
yang digunakan?. Bagaimana menentukan jumlah data yang diakuisisi?. Dan
sebagainya. Kesalahan dapat datang jika proses akuisisi data dilakukan tidak secara
hati-hati. Pengalaman peneliti juga berpengaruh dalam proses akuisisi data.
Kesalahan juga dapat terjadi dari sumber data yang diperoleh.
Selanjutnya, adalah instrumen akuisisi data yang memiliki kapasitas dan
klasifikasi yang berbeda-beda, tergantung pada tingkat akurasi dan presisi yang
diharapkan. Setiap instrumen akuisisi data sebaiknya sudah lolos proses uji validitas
dan reliabilitas instrumen, artinya alat ukur dan yang diukur sudah tepat dengan
tingkat presisi yang tinggi, misal tiga angka di belakang koma. Misal, instrumen
44
untuk mengukur berat badan adalah timbangan, dengan presisi 0.005 kg.
B. PENGOLAHAN DATA
Kesalahan juga dapat terjadi pada proses pengolahan data, ini adalah tahap
kedua setelah akuisisi data selesai dilakukan. Pengolahan data di dalamnya
termasuk cleansing, transformation, dan missing value.
C. PENGGUNAAN DATA
Kesalahan terakhir dapat muncul pada tahap akhir, yaitu penggunaan data
Hal ini disebabkan data kini sudah berubah menjadi sebuah informasi dan informasi
ini kemudian diberikan pada pemangku kepentingan. Pengambilan keputusan
merupakan tujuan akhir dalam data saitis. dan biasanya dilakukan oleh orang
dengan berbagai macam latar belakang keilmuan, kesalahan dalam memahami
informasi yang disajikan akan berujung pada kesalahan dalam pengambilan
keputusan akhir. Dibutuhkan penjelasan detail dari seorang ilmuwan sains data yang
mendampingi pada pemangku kepentingan dalam proses penggunaan data untuk
meminimalkan kerugian.
46
Gambar 20. Contoh data curah hujan time series Plot
47
D. KERANGKA KERJA MEMVISUALISASIKAN UNCERTAINTY
Terdapat 7 langkah strategis untuk memvisualisasikan uncertainty. 7 langkah
tersebut dikenal dengan istilah Uncertainty Visualization Development Strategy
(UVDS). UVDS memiliki 11 langkah utama yang terdiri atas:
1. Mengidentifikasi apa peran dari visualisasi uncertainty;
2. Memahami data apa saja yang diperlukan;
3. Memahami mengapa ketidakpastian perlu divisualisasikan, siapa
penggunanya, dan bagaimana visualisasi ketidakpastian bisa membantu
pengguna;
4. Memutuskan ketidakpastian yang akan divisualisasikan;
5. Memutuskan definisi ketidakpastian;
6. Menentukan penyebab spesifik dari ketidakpastian;
7. Menentukan kategori kausal dari ketidakpastian & menentukan persyaratan
kebutuhan dari visualisasi.
4. Langkah penyelesaian
Permasalahan:
Kendala dalam proses regresi dan penggunaan algoritma supervised ialah
adanya potensi nilai eror yang tinggi serta missing value pada setiap pengolahan
data yang dilakukan. Namun hal tersebut tidak berdampak besar apabila memiliki
data primer dan sekunder yang memiliki tingkat accuracy yang baik antar data
primer dan sekunder.
48
Penyelesaian:
Algoritma serta analisis regresi dapat digunakan secara efektif apabila hanya
digunakan untuk melakukan pencarian potensi eror.
5. Tugas
1. Apa hal yang harus diperhatikan dalam mengevaluasi sebuah data?
2. Bagaimana cara untuk mengindetifikasi sebuah penelitian berdasarkan
dengan data yang kita miliki?
3. Apakah pengaruh dari literatur sebelumnya dapat mempengaruhi kajian
literatur yang sedang di buat?
49
MODUL VI
REGRESI DAN KLASIFIKASI
1. Tujuan
1. Mahasiswa mengetahui keterlibatan regresi dalam analisis
2. Mahasiswa dapat mengidentifikasi metode yang tepat dalam data
science
3. Mahasiswa dapat mengimplementasi decision tree dan penggunaan
klasifikasi
2. Landasan Teori
REGRESI
Salah satu algoritma eksplanatori adalah analisis regresi, di mana peneliti
harus memiliki sebuah variabel bebas dan terikat. Variabel bebas kemudian
digunakan sebagai prediktor atas variabel terikat. Konsep regresi amat mudah dan
dapat digunakan untuk penelitian yang bersifat sederhana. Misal, bagaimana
hubungan antara jumlah data latih dengan akurasi hasil klasifikasi. Algoritma
eksplanatori berusaha menjelaskan suatu model berdasarkan pada variabel yang
memiliki hubungan linear. Kemudian dievaluasi tingkat signifikansinya secara
statistik.
50
B. MULTIPLE REGRESI LINEAR
Seperti halnya regresi linear, multiple regresi juga bertujuan untuk mene-
mukan hubungan antara variabel. Hanya saja variabelnya lebih dari dua atau dikenal
juga dengan istilah multiple. Variabel bebas atau prediktor dapat berjumlah dua, tiga,
atau lebih, sementara variabel terikatnya dapat berjumlah satu. Pada multiple regresi
peneliti akan melakukan analisis kekuatan hu bungan atas semua prediktor terhadap
sebuah variabel terikat. Misal, bagaimana hubungan antara ukuran data, jumlah data
latih, dan algoritma klasifikasi yang dipilih dengan hasil akurasi klasifikasi.
52
Terakhir, jika model prediksi yang dibangun perlu dijelaskan kepada
pemangku kepentingan guna mendukung proses pengambilan keputusan, maka
penggunaan algoritma pohon keputusan akan lebih baik daripada algoritma regresi.
Karena pohon keputusan yang merupakan luaran dari proses pengolahan data akan
lebih mudah divisualisasikan dan ditafsirkan daripada grafis linear dengan sumbu X
dan Y pada diagram kartesius.
G. KLASIFIKASI
Salah satu proses yang paling penting dalam data science adalah proses
klasifikasi. Klasifikasi selalu terdiri atas tiga bagian utama, yaitu proses pelatihan dari
data latih yang tersedia, proses klasifikasi berdasarkan hasil pelatihan, dan proses
pengujian berdasarkan pada data uji. Rasio atau perbandingan jumlah antara data
latih dan data uji biasanya menggunakan prinsip Pareto, yaitu 80:20. Di mana
peneliti akan menggunakan 80% data sebagai data latih dan 20% sisanya sebagai
data uji. Prinsip pareto menyatakan bahwa 80% hasil akhir disebabkan oleh 20%
53
usaha Pareto sendiri adalah seorang ekonom dari Italia dengan nama lengkap
Vilfredo Pareto, yang pada tahun 1895 menyatakan bahwa sekitar 80% tanah di
Italia dimiliki oleh 20% populasi negara tersebut.
Ide dasar dari proses klasifikasi adalah peneliti memiliki serangkaian kategori
data yang memiliki kelas tertentu atau lazim disebut label. Kemudian, berdasarkan
pada label tersebut peneliti akan membuat model yang akan digunakan untuk
secara otomatis melakukan klasifikasi dari data uji yang benar-benar baru, tidak
diketahui, atau bahkan, data yang berbeda sama sekali.
H. SUPERVISED LEARNING
Supervised learning dikenal juga dengan istilah pembelajaran
terbimbing/terselia. Misal, peneliti memiliki koleksi gambar manusia dan gorila telah
diberikan label dengan benar Komputer kemudian diberikan proses pembelajaran
dari koleksi gambar dengan label yang benar tersebut, ini adalah tahap pertama. Di
mana komputer akan menemukan pola dan kesamaan dari gambar-gambar
tersebut.
Pada tahap kedua, kita akan memberikan gambar yang benar-benar baru,
komputer kemudian akan mencoba mengenali gambar tersebut apakah akan
54
diklasifikasikan sebagai manusia atau gorila. Hasilnya dapat akurat 100% atau
bahkan, error 100% tergantung pada proses pembelajaran yang dilakukan.
Contoh penerapannya adalah pada surat elektronik (email). Untuk dapat
membedakan email yang masuk sebagai spam atau bukan, maka komputer akan
diberikan proses pembelajaran berdasarkan kepada email yang telah diberikan label
spam dan bukan spam. Berdasarkan pada proses pembelajaran tersebut, maka jika
ada email baru masuk akan diuji, apakah memiliki pola dan kesamaan dari data
latih, maka komputer akan memberikan label spam atau bukan spam. Aplikasi
lainnya adalah pada pengenalan teks, wajah, tulisan tangan, klasifikasi dokumen,
dan sebagainya.
55
Gambar 22. Supervised Learning
I. UNSUPERVISED LEARNING
Jika pada supervised learning peneliti harus memiliki label yang benar dahulu,
maka sebaliknya pada unsupervised learning tidak ada peran peneliti sebagai
mediator dalam memberikan label yang benar. Unsupervised terlebih dikenal juga
dengan istilah tidak terbimbing/terselia, artinya tidak ada proses "bimbingan" atau
belajar terlebih dahulu berdasarkan data latih. Pada unsupervised learning peneliti
mencoba menemukan apakah ter dapat pola yang khusus dalam data. Peneliti tidak
memiliki label, namun akan memberikan label berdasarkan pada pola yang
terbentuk secara alami dari data yang diolah. Komputer akan belajar secara mandiri
menemukan dan mengidentifikasi pola tanpa ada arahan dari peneliti.
Terdengar seperti kecerdasan buatan, di mana komputer dapat belajar tanpa
intervensi manusia, namun kurang tepat. Pada unsupervised learning. peneliti tidak
memiliki harapan luaran seperti apa, seperti pada proses regresi, dimana peneliti
memiliki harapan terdapat hubungan linear. Pada unsupervised learning peneliti
fokus pada data input dan mencoba mene- mukan pola dan hubungannya, maka
mungkin saja pada hasil akhirnya tidak terdapat pola dan hubungan sama sekali.
Contoh aplikasi dari unsupervised learning adalah rekomendasi artikel berita,
misal pada Google News menggunakan metode ini untuk memberikan rekomendasi
berita berdasarkan berita yang sama atau mirip. Pada bidang kesehatan misalnya
klasifikasi citra radiologi dan patologi untuk proses diagnosis yang cepat dan akurat.
Atau rekomendasi kepada pelanggan seperti pada halaman Amazon atau jurnal
56
ilmiah Springer, dimana komputer belajar berdasarkan pada tren data yang
digunakan oleh pengguna.
J. SEMI-SUPERVISED LEARNING
Pada supervised learning peneliti harus memiliki data dengan label yang
benar terlebih dahulu atas seluruh data, sebaliknya pada unsupervised learning
peneliti tidak memiliki label sama sekali. Sementara itu pada semi-supervised
learning peneliti hanya memiliki sebagian saja dari data yang dimiliki yang telah
memiliki label yang benar, sementara sebagian lainnya tidak. Tujuan dari semi-
supervised learning adalah 1) untuk memprediksi label pada data uji di masa depan
dan 2) memprediksi label pada data latih.
K. REINFORCEMENT LEARNING
Pada algoritma sebelumnya hanya fokus pada pengolahan data dan bagai
mana memperoleh pengetahuan darinya, atau dengan kata lain peneliti hanya fokus
pada kejadian di masa lalu atau di masa kini. Data science data tidak hanya fokus
pada data masa kini dan masa lalu, namun juga pada data di waktu nyata (real time)
sehingga kita membutuhkan sebuah metode lain yang dapat mempelajari apa yang
terjadi di waktu nyata guna men dapatkan "hadiah" (reward) semaksimal mugkin.
Berdasarkan alasan inilah kemudian dikenalkan algoritma Reinfor cement
learning (RL). Algoritma RL adalah tentang proses "pemaksaan" (reinforcing)
perilaku yang benar seiring dengan berlalunya waktu. Jika prediksi benar, maka
akan diberikan reward, dan akan diberikan hukuman jika salah. Contoh sederhana
dari penerapan algoritma RL adalah iklan online berdasarkan klik yang dilakukan
oleh pengguna, atau dikenal juga dengan istilah click-through rates (CTR). Hal ini
banyak diterapkan pada market place online seperti Tokopedia, Bukalapak, dan
sebagainya.
Jika kita ingin memaksimalkan profit, maka mengapa tidak melakukan
penyesuaian saat iklan sedang dijalankan?. Dengan kata lain, jangan menunggu
seluruh anggaran iklan habis sebelum mengetahui mana yang berkinerja terbaik.
Sebagai gantinya, cari tahu iklan mana yang berkinerja terbaik saat sedang
dijalankan. Lakukan penyesuaian sejak dini agar nantinya hanya iklan dengan
kinerja terbaik yang akan ditampilkan kepada pengguna.
57
Perhatikan bahwa definisi algoritma RL. tidak sepenuhnya sesuai dengan
supervised learning atau unsupervised learning. Ingat bahwa supervised learning
adalah tentang proses belajar melalui pengawasan dan pelatihan oleh peneliti.
Sementara itu, unsupervised learning berusaha mengungkapkan atau menemukan
pola, kesamaan, atau perbedaan, dari data yang tidak terstruktur (tanpa
pengawasan dan tanpa label). Perbedaan utama dari algoritma RL adalah dalam
memaksimalkan hadiah (reward) yang ditetapkan, belajar dari interaksi pengguna,
dan kemampuan untuk memperbarui secara real time.
58
unmanned aerial aircraft imagery - a neural network approach. International
Journal of Remote Sensing, 41(9), 3266- 3286.
https://doi.org/10.1080/01431161.2019.1688413.
Reimers, C., & Requena-Mesa, C. (2020). Deep Learning - an Opportunity and a
Challenge for Geo- and Astrophysics. In Knowledge Discovery in Big Data
from Astronomy and Earth Observation: Astrogeoin- formatics. Elsevier Inc.
https://doi.org/10.1016/B978-0-12-819154- 5.00024-2
4. Langkah Penyelesaian
Permasalahan:
Terdapat banyak sekali library yang tersedia untuk menerapkan algoritma
pohon keputusan, baik menggunakan Python maupun R. Masalah paling umum
yang sering ditemui dalam algoritma pohon keputusan adalah mudah terjebak ke
dalam kondisi overfitting.
Algoritma Random Forest juga tidak lepas dari kelemahan, terdapat banyak
hal kompleks berjalan di balik layar yang tidak diketahui. Hal ini dikenal juga dengan
istilah black box, yaitu semacam kotak hitam di mana ada input dan ada hasilnya,
namun kita tidak tahu persis apa yang sebenarnya terjadi di dalam
kotak hitam tersebut.
Penyelesaian:
Algoritma klasifikasi memberikan banyak manfaat bagi peneliti data science,
baik untuk kegiatan penelitian (non profit oriented) ataupun analisis bisnis (profit
oriented). Berbagai Library yang siap pakai juga banyak tersedia untuk melakukan
proses klasifikasi. Selanjutnya, kini juga tersedia proses klasifikasi berbasis cloud, di
mana performa komputer pengguna sudah tidak menjadi halangan karena semua
berjalan di dalam cloud milik penyedia jasa, seperti Google Cloud dan AWS secara
online.
Layanan klasifikasi berbasis cloud untuk data citra satelit berukuran sangat
besar kini sudah tersedia. Misal, Google Earth Engine (GEE) yang dapat diakses
melalui URL https://code.earthengine.google.com/ maupun Microsoft Planetary
Computer yang dapat diakses melalui URL https://
planetarycomputer.microsoft.com/ Namun selain beberapa kelebihan tersebut,
59
beberapa tantangan hadir dalam proses klasifikasi. Beberapa tantangan tersebut
adalah seperti berikut.
5. Tugas
1. Jelaskan yang dimaksud dengan Analisis Supervised Learning?
2. Penggunaan Metode Regresi dapat dikatakan dapat mencakup keseluruhan
hipotesis secara garis besar, mengapa? jelaskan!
3. Kegunaan Supervised dan Unsupervised Learning pada tatanan kota berguna
untuk?
60
MODUL VII
ARTIFICIAL NEURAL NETWORK (ANN)
&
MULTIPLE LAYER PERCEPTRON
1. Tujuan
1. Mahasiswa mengetahui ANN
2. Mahasiswa dapat mengidentifikasi kekurangan dan solusi kekurangan
dari ANN
3. Mahasiswa dapat mengimplementasi metode ANN dan MLP
2. Landasan Teori
ARTIFICIAL NEURAL NETWORK
Mata manusia sangat mudah dalam mengenali dan membedakan objek di
Junia nyata. Manusia juga dapat dengan mudah membaca dan memahami arti dari
suatu teks dalam kalimat. Hal ini dikarenakan manusia memilik sensor dan
perangkat pengolah data yang lengkap, seperti mata dan otak. Mata berfungsi untuk
mengenali objek, kemudian informasi mengenai objek ini dikirimkan ke otak untuk
diolah dengan sangat cepat. Namun, akan sangat berbeda dengan komputer,
sesuatu yang terlihat sangat sederhana dilakukan oleh manusia akan menjadi
sangat sulit dilakukan oleh komputer
Namun, komputer memiliki kemampuan mengolah proses perhitungan
matematis yang kompleks dengan sangat cepat, sementara manusia tidak. Hal ini
menjadi sangat menarik, mengingat kemampuan manusia dan komputer ternyata
saling berbanding terbalik namun juga dapat saling menggantikan. Di masa depan
akan semakin sulit membedakan apakah suatu pekerjaan dikerjakan oleh manusia
atau oleh komputer.
Salah satu metode yang diklaim meniru cara kerja otak manusia dalam
mengenali sesuatu adalah algoritma jaringan saraf tiruan atau dikenal juga dengan
istilah artificial neural networks (ANN) Otak manusia bekerja dengan memanfaatkan
kemampuan neuron menerima sinyal dari sensor, mengolahnya, dan mengirimkan
kembali hasilnya. Neuron satu dengan yang lain terhubung oleh sinapsis, dan
jumlahnya dapat mencapai lebih dari miliaran. Namun, metode ini tidaklah
61
sepenuhnya meniru cara kerja otak manusia, dikarenakan otak memiliki peta yang
sangat kompleks, sementara komputer tidak. Otak manusia senantiasa mengalami
perubahan seiring dengan bertambahnya usia dan pengetahuan. Semakin sering
digunakan, maka jumlah neuron dan sinapsis akan terus bertambah Sebaliknya,
semakin jarang digunakan, maka jumlah neuron dan sinapsis akan terus berkurang.
Berbeda dengan komputer, di mana jumlah neuron dan node hanya bisa ditentukan
oleh peneliti.
Pada algoritma ANN, selalu dimulai dari variabel masukan pada layer input,
kemudian layer ini akan dihubungkan dengan "hidden layer", dan terakhir adalah
layer output di mana proses perhitungan dapat dilakukan secara berulang untuk
mendapatkan model yang terbaik. Algoritma ANN bekerja mirip dengan supervised
learning, di mana data latih harus terlebih dahulu ditentukan oleh peneliti. Data latih
ini kemudian digunakan untuk melatih komputer dalam mengenali data. Lalu,
berdasarkan data latih tersebut komputer kemudian akan mampu mengenali dan
membedakan suatu objek. Aplikasinya seperti mengenali gambar, teks, suara, atau
ber bagai jenis data lainnya.
Akurasi yang dihasilkan oleh algoritma ANN akan sangat bergantung pada
kualitas dan kuantitas data yang dimiliki oleh peneliti. Kita mengenal istilah Garbage
In Garbage Out, yaitu suatu istilah yang menggambarkan bahwa jika input data latih
yang digunakan memiliki kualitas yang buruk, maka akan menghasilkan luaran
(output) yang buruk pula. Sebaliknya, jika input data latih yang digunakan memiliki
kualitas yang baik maka akan menghasilkan luaran (output) yang baik pula. Kualitas
data input dapat diperbaiki dengan cara pemilihan fitur yang tepat, mengubah
parameter seperti learning rate, dan regularization.
Learning rate adalah salah satu parameter yang digunakan dalam proses
pelatihan untuk melakukan koreksi nilai bobot. Rentang nilai lear- ning rate biasanya
antara 0 hingga 1, di mana semakin besar nilainya akan semakin cepat proses
komputasi. Sebaliknya, semakin kecil nilai learning nate maka akan semakin lambat
proses komputasinya. Ketelitian algoritma ANN dalam belajar juga akan bergantung
kepada nilai learning rate yang diberikan. Semakin besar nilai learning rate maka
akan semakin kecil ketelitiannya, sebaliknya semakin kecil nilai learning rate maka
akan semakin tinggi tingkat ketelitiannya.
62
A. MULTI-LAYER PERCEPTRON
Multi-layer perceptron adalah satu bentuk algoritma ANN yang paling mudah
dipahami dan diimplementasikan. Memvisualisasikan arsitektur MLP yang terdiri
atas tiga layer (input, hidden, dan output). Pada input layer terdapat tiga neuron
(node), sementara pada hidden layer terdapat lima neuron, dan output layer terdapat
tujuh layer. Hidden layer sangat penting keberadannya karena berfungsi untuk
mengatur dari MLP, tanpa hidden layer maka MLP tidak mampu melakukan proses
pembelajaran. Terlalu sedikit jumlah data latih, dan terlalu banyak jumlah iterasi
akan membuat MLP terjebak pada kondisi overfitting.
Pada MLP perhitungan dan perbaikan bobot nilai menggunakan algoritma back
propagation, yaitu perhitungan dan penyesuaian bobot secara iterative, maju-
mundur secara berulang-ulang hingga mencapai nilai.
63
Gambar 24. Radial Basis Neuron Network
Hidden layer bertugas untuk mengukur jarak antara data input dengan nilai
pusat dari RBF. Nilai RBF akan mencapai puncak atau nilai tertinggi ketika jarak
antara pusat dengan data input bernilai nol dan berkurang secara bertahap, dengan
semakin jauhnya jarak. Output akan bernilai 1 jika data input pada pusat fungsi,
tetapi akan terus menurun seiring dengan semakin besarnya jarak antara input dan
pusat, jarak terjauh berarti memi liki nilai 0.
Seperti halnya MLP, RBFNN juga dapat digunakan untuk analisis kasus-
kasus non-linear yang kompleks. RBFNN membutuhkan waktu komputasi yang lebih
lama dibandingkan dengan MLP meskipun menggunakan nilai learning rate dan
arsitektur jaringan yang sama. Namun, algoritma RBFNN dapat memberikan hasil
dengan akurasi yang lebih tinggi dibandingkan algoritma MLP.
64
Berdasarkan pada motivasi tersebut kemudian muncullah metode Natural
Language Processing (NLP). NLP adalah satu catu cabang kecerdasan buatan yang
fokus pada proses memahami dan menginterpretasi bahasa manusia. NLP juga
meliputi proses memahami dan menginterpretasi teks dan percakapan. Semua
layanan tersebut memanfaatkan bantuan algoritma NLP. Kini, nilai pasar dari
layanan berbasis NLP dapat mencapai miliar, bahkan triliunan rupiah. Hal ini
dikarenakan layanan NLP banyak digunakan dalam layanan pelanggan, asisten
virtual pribadi, layanan kesehatan, layanan keuangan, dan sebagainya.
NLP juga banyak dimanfaatkan untuk memahami konten dan sentimen dari
data media sosial seperti Twitter, komentar pada platform YouTube, ulasan
pengguna di Android Playstore, maupun ulasan pelanggan di marketplace seperti
Tokopedia dan Bukalapak. Analisis seperti ini mungkin dilakukan karena
ketersediaan data yang sangat banyak dari aktivitas dalam jaringan (online). Perlu
dipahami bahwa analisis data akan memberikan hasil yang semakin baik dan
berkualitas jika data latih yang digunakan juga semakin banyak dan berkualitas.
65
mudah memahaminya tanpa memerlukan ban tuan komputer. Namun bagaimana
jika jumlahnya mencapai ribuan atau bahkan ratusan ribu ulasan dan komentar.
Implementasi NLP akan menjadi jawabannya. Karena dengan memanfaatkan NLP
kita akan dapat dengan mudah mengetahui hasilnya. apakah ulasan dan komentar
tersebut dominan negatif, positif, atau netral Kemudian, kita dapat mengulangi
analisis yang sama untuk periode yang berbeda. Apakah ditemukan ulasan dan
komentar yang berubah menjadi lebih baik setelah sebelumnya negatif, atau apakah
tidak terjadi perubahan apa pun meskipun perbaikan layanan jasa atau produk telah
dilakukan
E. JENIS NLP
Berdasarkan tujuannya, NLP dapat dibagi menjadi dua, yaitu Natural
Language Understanding (NLU) dan natural language generation (NLG) Sebagian
besar metode machine learning atau data mining, seperti proses klasifikasi teks,
analisis topik, analisis sentimen, dan sebagainya termasuk ke dalam NLU. Terdapat
berbagai macam pendekatan dari NLU untuk melakukan analisis topik dari sebuah
dokumen, seperti Latent Dirichlet Allocation (LDA), Latent Semantic Indexing (LSI).
Pachinko Allocation Machine (PAM). dan sebagainya.
Pendekatan LDA dapat memberikan hasil yang baik untuk analisis topik,
namun hasilnya statis. Artinya kita harus mengulangi semua dari awal jika
menggunakan dokumen yang berbeda Sementara LSI adalah sebuah pendekatan
yang mudah diimplementasikan namun memiliki kemampuan yang rendah jika
mengolah kata dengan komponen huruf yang sama namun memiliki arti yang
berbeda. Hal ini dikenal juga dengan istilah polysemy. Misal, kata "buku" dapat
merujuk kepada lembaran kertas yang berjilid. atau tempat pertemuan dua ruas
pada jari tangan, buluh, atau tebu.
66
4. Langkah Penyelesaian
Permasalahan:
NLP dan AI adalah sebuah kecerdasan buatan yang bisa dikatakan sebagai
kecerdasan buatan yang muncul di abad 21. Berdasarkan hal tersebut, perlu adanya
pengembangan serta perbaikan lebih lanjut oleh para praktisi dan juga peneliti agar
kecerdasan buatan tersebut dapat bekerja secara efisien (optimal, minim biaya serta
tingkat kesalahan lebih rendah). Hal yang bisa ditemui dari permasalah tersebut
ialah: adanya kesalahan pada google voice pada saat digunakan yang tidak
mendeteksi beberapa kalimat sehingga hasil pencarian yang dilakukan menjadi bias
ataupun salah.
Penyelesaian:
Implementasi NLP pada proses bisnis akan menekan biaya. Dibandingkan
dengan menggunakan tenaga manusia lebih efektif menggunakan komputer dalam
melakukan proses terjemahan, analisis sentimen, sistem tanya jawab pada layanan
media sosial, analisis pasar, maupun klasifikasi musik, teks dan dokumen.
Selain lebih murah, implementasi NLP juga lebih cepat dari sisi waktu Misal,
layanan suara pada proses penulisan dokumen menggunakan Google Docs akan
jauh lebih cepat daripada mengetik menggunakan bantuan keyboard. NIP juga kini
mudah diterapkan dengan ketersediaan perangkat lunak yang komersial maupun
yang tidak. Misal, dengan menggunakan bahasa R dan Python peneliti dapat
dengan mudah melakukan analisis NLP berbasis LDA.
Algoritma JST bukanlah sebuah ide baru, hal ini sudah lama muncul dan
dikenalkan oleh peneliti. Saat ini topik mengenai algoritma JST kembali ramai
diperbincangkan oleh khalayak karena varian dan volume data serta permasalahan
modern yang muncul semakin kompleks.
Ketersediaan teknologi dan perkembangan kemampuan komputer juga telah
menyebabkan algoritma JST menjadi semakin populer. Dahulu, amat sulit membuat
dan mengimplementasikan algoritma JST karena membutuhkan waktu komputasi
yang tidak sebentar serta sumber daya komputer yang mumpuni.
Kini, peneliti mampu memanfaatkan algoritma JST, bahkan dengan
spesifikasi komputer yang rendah. Bahkan, proses komputasi juga dapat berjalan di
dalam jaringan dengan bantuan layanan berbasis cloud seperti Jupyter Notebook,
Visual Studio Code (VS Code), nteract, Jupyterlite, dan Google Colaboratory atau
67
lebih dikenal dengan istilah Google Colab.
5. Tugas
1. Apa saja yang termasuk dalam layanan berbasis cloud?
2. Jelaskan perbedaan ANN dan NL?
3. Apa kekurangan dari NL dalam dunia teknologi? Dan menurut anda hal apa
saja yang harus di kembangkan?
68
MODUL VIII
DEEP LEARNING
1. Tujuan
1. Mahasiswa mengetahui Deep Learning
2. Mahasiswa dapat mengidentifikasi Jenis Algoritma Deep Learning
3. Mahasiswa dapat mengimplementasi Deep Learning
2. Landasan Teori
DEEP LEARNING
Deep learning (DL) adalah metode pembelajaran mesin yang berdasarkan
kepada algoritma ANN/JST. Algoritma DL berbasis kepada jaringan saraf yang
berjumlah sangat besar, dengan jumlah lapisan hidden layer yang banyak, dan data
latih yang juga sangat besar, untuk menghasilkan performa akurasi yang jauh lebih
baik.
Algoritma DL sesuai untuk digunakan dengan jenis kasus non-linear Input
pada layer setelahnya adalah output dari layer sebelumaya. Begitu pun halnya
dengan fitur pada tingkat yang lebih tinggi berasal dari fitur pada tingkat yang lebih
rendah. Secara umum, parameter pada algoritma DL tidak jauh berbeda dengan
ANN/JST, seperti jumlah hidden layer, epochs (iterasi), learning rate,
dan uji performa.
Namun, pada algoritma DL penentuan fitur atau proses labelling tidak lagi
membutuhkan keterlibatan manusia atau peneliti sehingga proses ekstraksi fitur
sudah tidak perlu lagi dilakukan secara manual. Misal, komputer akan mengenali
karakteristik yang unik dari pisang dan membuat klasifikasi yang akurat. Komputer
akan secara mandiri dan dinamis melakukan proses ekstraksi dan klasifikasi, peneliti
hanya perlu memberikan data mentah
69
1. Fully Connected Networks (FC), adalah jenis algoritma DL. yang paling umum
dan paling sering digunakan untuk mengatasi berbagai kasus non-linear. Pada
algoritma DL dengan jenis FC semua node (neuron) sebelumnya pada layer ke-n
akan saling terhubung dengan neuron (node) setelahnya pada layer ke-n+1
secara keseluruhan begitu sete rusnya sampai pada lapisan (layer) output
Algoritma DI. dengan jenis FC biasa digunakan untuk jenis data tabular.
70
Gambar 27. Convolutional Neural Networks
Algoritma DL dengan jenis CNN ini memiliki kelebihan lainnya, yaitu kemampuan
belajar berdasarkan pada ekstraksi fitur yang tidak perlu dilakukan secara
manual, terutama pada tingkat yang rendah. Namun, hal ini menyebabkan
peneliti sulit menjelaskan sebenarnya apa telah dipelajari oleh sistem. Algoritma
DL dengan jenis CNN ini memiliki arsitektur jaringan yang spesifik, yaitu memiliki
dua lapisan utama. (1) convolution dan (2) pooling. Di mana neuron (node) pada
lapisan ke-n akan berfungsi sebagai input pada lapisan ke-n+1, namun tidak
terhubung secara keseluruhan seperti pada jenis FC. Lapisan (layer) ken+1
hanya terhubung pada sebagian potongan saja dari lapisan ke-n sehingga
dikenal juga dengan istilah receptive field
3. Recurrent Neural Networks (RNN) memiliki karakteristik yang berbeda
dibandingkan dengan dua jenis algoritma DL. sebelumnya. Algoritma DL jenis
RNN ini khusus didesain untuk mengolah data yang berurutan Gequential).
Algoritma DL jenis RNN ini banyak diterapkan pada kasus analisis data berbasis
bahasa alami atau Natural Language Processing (NLP) memperlihatkan adanya
proses yang berulang pada hidden layer. Algoritma RNN sesuai digunakan untuk
analisis yang berbasis suatu konteks atau latar belakang sebelumnya, misal
untuk mengetahui makna suatu kata atau kalimat hanya dapat dianalisis dengan
mengetahui kata atau kalimat sebelumnya.
71
Gambar 28. Recurrent Neural Networks
72
Gambar 29. Arsitektur GAN
73
Gambar 30. Hubungan AI dan DI
C. APLIKASI
Algoritma DL telah banyak diterapkan pada berbagai domain keilmuan dan
kasus Misal, pada kasus klasifikasi citra dan video satelit dengan reso lusi sangat
tinggi, maupun data citra hypersepctral, yaitu data citra yang memiliki ratusan
panjang gelombang. Sementara pada domain keilmuan seperti biologi, ilmu
kesehatan, kedokteran, fisika, dan astronomi, algoritma DL juga telah
banyak dimanfaatkan.
Pada aplikasi yang lebih spesifik seperti pengenalan dan pengolahan teks,
bahasa, dan dokumen, algoritma DL digunakan untuk memahami , sentimen, dan
lain sebagainya dari berbagai macam bahasa di dunia Selain itu, juga algoritma DL
kini dimanfaatkan pada domain keamanan, pola. seperti pengenalan wajah, jenis
kelamin, usia, serta keamanan siber seperti analisis anomali, serangan siber, dan
sebagainya.
Pada domain bisnis, algoritma DL dapat digunakan untuk analisis fraud pada
transaksi kartu kredit, analisis tren pasar seperti fluktuasi harga saham, baik untuk
pemantauan secara berkala maupun prediksi. Sementara itu untuk domain lain
seperti robotika dan permainan, algoritma DL. juga mulai banyak berperan penting.
Misal pada kasus navigasi kendaraan tanpa awak seperti pada pesawat udara
nirawak (PUNA), mobil, motor, bahkan kapal selam.
74
3. Alat dan bahan
Alat tulis dan buku refrensi
Strubell, E., Ganesh, A., Anda McCallum, A. (2019). Energi and policy
considerations for deep learning in NLP. Cornell University. https://
arxiv.org/abs/1906.02243
Sugiyono. (2002). Metode Penelitian Bisnis. Alfabeta, Bandung.
Valdez, A.C., M. Ziefle, and M. Sedlmair. (2018). "A Framework for Studying
Biases in Visualisation Research." In Geoffrey Ellis (ed.), Cognitive Biases in
Visualizations Cham: Springer
Vander Plas, J. (2016). Python data science handbook: Essential tools for
working with data. " O'Reilly Media, Inc.".
4. Langkah Penyelesaian
Permasalahan:
Deep Learning memerlukan data latih dalam jumlah besar untuk menghasilkan
akurasi yang baik, sementara proses menghasilkan data latih membutuhkan waktu
dan biaya yang tidak sedikit Sehingga sering kali proses pembangunan data latih
justru bisa jadi lebih lama dari proses pelatihannya. Pemilihan arsitektur dari
algoritma DL yang akan digunakan pada penelitian menjadi sangat penting karena
ini akan terkait dengan proses pelatihan yang dapat mencapai waktu berminggu-
minggu, bahkan hingga berbulan-bulan. Sementara dengan waktu yang lama
tersebut belum tentu memberikan hasil dengan akurasi yang tinggi.
Penyelesaian:
Algoritma DL merupakan bagian dari machine learning yang bertujuan untuk
melakukan klasifikasi maupun prediksi atas suatu data. Algoritma ini berbasis
jaringan saraf tiruan yang terdiri atas berlapis-lapis layar, dengan berbagai fungsi
yang berjalan di dalamnya. Algoritma DL saat ini semakin populer karena beberapa
hal, seperti: (1) Semakin aplikatif karena kehadiran data latih yang semakin banyak
dan bervariasi; (2) Peningkatan dari infrastruktur komputer yang semakin besar dan
cepat. (3) Akurasi yang semakin baik seiring dengan berjalannya waktu: (4) Dapat
dilakukan dengan berbagai cara, baik supervised, unsupervised, semi-supervised,
maupun reinforcement learning, dan (5) Ketersediaan jasa layanan berbasis cloud
yang dapat diakses dengan mudah oleh siapa pun.
75
5. Tugas
1. Apa pemanfaatan dari AI dan DL?
2. Hal apa yang dapat dikembangkan dari AI dan DL?
3. Jelaskan fungsi AI dan DL pada bidang Kesehatan?
76